2021年度 受賞者のコメント
日本データベース学会 功労賞
石川博 (東京都立大学 特別先導教授/特任教授/名誉教授)
講演では、人工知能とビッグデータの時代ともいわれる現代において新たな発想をつかむためにキーとなる、仮説を構築する方法について述べさせていただきました。
第5世代移動通信システム(5G)サービスの開始・普及に伴って、これまで以上に大容量かつ高速のデータが生成されるようになってきて、一度に接続可能になるIoT(Internet of Things)デバイスなどの数も飛躍的に増え、実世界データ・ソーシャルデータ・オープンデータを含む多種多様なデータを組み合わせて取り扱う必要性がますます大きくなってきました。
このようなデータはビッグデータと総称されます。ビッグデータを統合的に利用すれば、新たに有用な知識や価値が生まれ、それらを通して知的でダイナミックな社会を実現できるでしょう。それによって期待される利用分野には観光、モビリティ、医療・科学など社会基盤的な応用が含まれます。
しかしながらビッグデータが与えられて、それらに対して人工知能やデータマイニングなどの先進的なITを適用すれば、自動的に有用な仮説が得られるわけではありません。特に先進的な応用では、複数種類のデータやすでに得られた仮説の組み合わせで統合的な仮説が得られる場合が多いですが、異なるデータをどう組み合わせれば有用な仮説が得られるかは必ずしも自明ではありません。
多くのビッグデータのユースケース(具体的な応用例)の観察に基づいて、ビッグデータを活用する応用情報システムを構築するために必要な基盤技術となる統合的な仮説生成の方法を、データ分析(人工知能、機械学習、データマイニング)とデータ管理(データベース)という別々に発展してきた技術を調和的に利用したアプローチを念頭に、そのいくつかを説明しました。
まず仮説の定義について述べた後、仮説生成のヒントになるリサーチクエスチョンについて説明しました。基本的な仮説生成に役立つ推論形式として、演繹、帰納、もっともらしい推論、類推、問題解決の手法があります。また科学の諸分野(特に天文学)において仮説がどのように作られてきたかを手掛かりにして、主に回帰という方法を説明しました。
次に統合的仮説生成の方法論(差分、結合、重ね合わせ、和分)について、時間や空間の差分に注目したユースケースを通して、その一端を説明しました。
これからはビッグデータと人工知能を応用した現代の情報システムの理解と受容にとって重要となる仮説の解釈にも研究の幅を広げていきたいと思います。また大学の学生さんだけでなく広く一般のかたにも研究成果をお伝えしていきたいと思います。さらに英語による学術出版にも挑戦したいと思います。
まことに僭越ながら、ぜひ皆様にも様々なことに興味を持ち、様々な課題に取り組んで研究開発を進めていただくように願っております。
最後にあらためて関係者の皆様に感謝を申し上げたいと存じます。
日本データベース学会 若手功績賞
手塚太郎 (筑波大学)
思い起こせば駆け出しの頃、2005年のデータ工学ワークショップ(DEWS2005)における最優秀プレゼンテーション賞から始まり、2012年の上林奨励賞、そして今回の若手功績賞と、研究者人生の節目ごとにデータベースコミュニティから賞をいただくことができており、励みになると共に、身の引き締まる思いもしています。
この二年間の新型コロナの流行により、皆様と対面で会いする機会も減ってしまいましたが、過去のDEIMやSIGMOD-J、WebDB Forum、KJDBのイベントなどを懐かしく思い出しています。
近年のデータベース学会のイベントはオンライン化によって参加者が大きく増えたとのことで、ふたたび対面で開催されるようになった時、どのような規模の集まりになっているのか、楽しみなところです。
恩師の先生がある時、「量の違いは質の違い」という話をされていたのをふと思い出しました。それはvery large databaseのように、データやトランザクションの量が増えるにつれて、質の異なる新しい問題や可能性が生じてくるという文脈での話でしたが、同じことがコミュニティについても言えるのではないかと思っています。
いまや日本データベース学会は情報科学分野における最大の学会のひとつかと思いますが、関わっている多くの先生方が作り出す魅力的なイベントに人が集まり、それがさらに人の繋がりを生み、the rich gets richerが起きていっているように思います。その発信力や調整力は今後、分野の発展のために大きな力となるのではないでしょうか。
私はこれまでいくつかの大学で働いてきましたが、どの大学にも知っている先生がいるというのは大変心強いことでした。データベースコミュニティを通して得られた繋がりはとても大きな財産です。
お世話になった方ひとりひとりのお名前を挙げていきますと切りがありませんので(そしてどこかで止めなくてはなりませんので)控えさせていただきますが、恩師の先生方や過去と現在の同僚の皆様、研究室の卒業生、そして日本データベース学会を支えていただいている皆様に深く感謝しています。
またコロナが明けて、皆様にお目にかかれる日を楽しみにしています。
渡邉陽介 (名古屋大学)
正直に白状いたしますと、今回の受賞のご連絡を事務局の方から最初にメールで頂いたときは、突然だったため全く信じておらず、誰かと間違えて送ったのではないですか、と返信してしまいました。その節は大変失礼いたしました。
改めてデータベースコミュニティ内での活動の振り返りますと、最初のころはまだ筑波大の学生で、ACM SIGMOD日本支部の講演会の設営をお手伝いするような仕事をしていました。仕事の傍らで、講演会にて国際会議報告をされる先生方の話を、どこか遠い世界の出来事のように聞いていたように思います。この後もSIGMOD日本支部とは何かとご縁があり、ヘルプデスクの担当や、幹事をやらせて頂くこともありました。最終的には自分も国際会議SIGMOD2011に派遣される側になろうとは、学生当時からすると思ってもみないことでした。多くの貴重な経験をさせて頂いたと思っております。
ここ最近は名古屋大学にて、自動運転車を対象にしたストリーム型の分散データベースの研究をしております。自動運転車は自身の周辺環境を認識するための多数のセンサを積んでおり、走行時は絶えず周りをスキャンしながら移動します。毎秒膨大なデータを生み出し続ける、巨大な動く情報源となっており、将来的にはこれが複数で街中を走り回る時代が来るといわれています。今後、データベース技術の応用が強く求められていくであろうと考えておりまして、自動車分野、交通分野へのデータベース技術のプレゼンスを高めていけたらと思い、日々活動しております。
最後にもう一度、栄誉ある賞を頂きまして誠にありがとうございました。受賞を契機に皆様ともこれまで以上にアクティブに研究活動を続けていけましたら幸いです。
藤原靖宏 (日本電信電話株式会社)
私がデータベース分野の研究をはじめたのは入社2年目のNTT研究所の組織改編がきっかけでした。入社1年目はメディア流通を研究する部署に所属していたのですが、当時の部長から「技術を身に着けてください」とデータベースを研究している組織に異動になりこの分野に関わることとなりました。しかし全く畑違いの部署への異動だったため、会社の図書館にこもって当時の研究会論文などを読み漁り、何とかこの分野の研究にキャッチアップしようと必死でした。データベース分野の大規模な学会への参加は沖縄で開催された DEWS 2006 が最初になりますが、論文で名前を拝見していた先生方が一同に介し研究発表されているのを直接見るのは非常に刺激的で、またそこで得た多くの方々とのつながりはその後の研究の糧になりました。
自分がはじめて学会運営に携わったのは電子情報通信学会のデータ工学特集号における査読委員になります。それまで他の方の論文を評価する仕事を行ったことがなく非常に戸惑いましたが、編集委員や編集幹事の方々の親身なサポートによりその職務を全うすることができました。特集号との関わりはその後自分自身が編集委員・幹事となるまで続き、学会運営を行うのに必要な知識などを学ぶ良い経験となりました。また日本データベース学会Newsletterの編集委員・幹事としてインターンシップ体験記と若手研究者特集の企画を立ち上げる機会を頂きました。これらの企画の狙いは20代の方々にデータベースコミュニティの魅力を伝えようというものでした。コミュニティにおける若い研究者を増やし、その活性化を図るというのは決して簡単なことではないと思いますが、今後もその思いは⼤切にしたいと思います。
データベース分野において専門外であった自分が研究者として続けられているのは、若いときにこのデータベースコミュニティの一員になり、様々な方々に育てて頂いたからです。最近の学会はオンライン開催になる傾向がありますが、若い研究者の方には機会があれば学会に参加して様々な方々と知り合いになって欲しいと思います。日本のデータベースコミュニティは様々な専門性を受け止める高い包容力があり、若い頃に親しくなった方々はその後に様々な岐路に立ったときに味方になってもらえる非常に価値あるものになります。
データベースの研究について右も左もわからなかった自分が⽇本データベース学会若⼿功績賞という名誉ある賞を頂いたことは非常に感慨深いものがあります。これからも研究活動に励み、データベースコミュニティに恩返しができればと思います。今後ともよろしくお願いします。
日本データベース学会 上林奨励賞
大川真耶 (日本電信電話株式会社)
今回受賞理由に挙げていただいたKDD19、KDD21の論文では、SNSにおける情報伝搬、感染症や犯罪の発生等の社会現象を対象として、それらの事象を高精度に予測する手法を提案しています。社会現象の背後のメカニズムを理解し、高精度な事象の予測を行うことは、防犯・防疫・マーケティングなど様々な実応用で役立つのはもちろん、社会現象の理解という観点からも興味深い問題だと感じています。そのため個人的な思い入れも強く、KDD投稿に向けては数ヶ月前から入念に準備を重ねました。そのおかげか、どちらも一度目の投稿で採択されました。アイデアの面白さをいったん信じ、実データを用いた定性評価に時間をかけてデータマイニングの観点からの面白さを出したこと、原稿の推敲を重ねたことが採択に繋がったと実感しています。
私は元々物理学専攻の素粒子実験系の研究室の出身で、NTTへの入社を機にデータマイニング・機械学習分野の研究に携わるようになりました。入社以来、この分野でやっていけるのか?という疑問が常にあり、薄氷の上を歩いているような気持ちでいました。そんな中で、周りの方が陰に陽に研究の道に導いてくださり、今日「上林奨励賞」という栄えある賞をいただくことができました。共著の皆様、NTTや大学でお世話になった皆様、学会などで出会った皆様に改めて感謝いたします。余談になりますが、実験がうまくいかず人生への不安が増した時はランニング、サーフィンなど、とにかく運動することを心がけていました。もしこれを読んでくださっている方の中で似た状況の方がいたら、フィジカルな解決策を探してみるのもおすすめです。
今後、データマイニング・機械学習分野における学術貢献を目指してますます精進するのはもちろん、これまでお世話になった方のように後進の方々のサポートをすることでコミュニティ全体への貢献ができるよう、頑張って参ります。
富樫陸 (サイバーエージェント)
董于洋 (日本電気株式会社)
私は2014年から2019年まで筑波大学の修士・博士課程に在籍し、空間データベースの効率的な検索について研究していました。博士卒業後はNECのデータサイエンス研究所に入社し、データの高品質化を目的とした大規模データの探索・統合に関する研究を行っています。私が所属している部署では、外部データの利活用によってデータを高品質化する技術開発に取り組んでおり、NEC Data Enrichment [1]などのサービスをリリースしています。受賞の一つ目のきっかけとなったVLDB Journalの論文は大学院時代の成果であり、大規模かつ時間依存性のある位置データとテキスト情報を対象とした継続的なtop-kクエリの研究でした。受賞の二つ目のきっかけとなったICDE21の論文[2]はNEC入社後に行った研究であり、大規模なデータレークから手元のテーブルと結合可能なテーブルを高速に発見・検索するアルゴリズムを提案しました。また、SIGIR22 demo[3][4]に最近採択された研究では、機械学習の予測精度向上を目的として、手元のテーブルをリッチにする外部テーブルの探索、結合、整形まで行うEnd-to-Endのテーブル拡張システムを提案しました。
コンピュータサイエンスの研究についての個人的な見解になりますが、論文を読みながら研究テーマを考える際、或いは、実験結果を纏め論文執筆を開始する際に、「これは良い研究なのだろうか」と自問自答することがあると思います。私にとっての「良い研究」の定義は、「新規な手法」を用いて「効率的」に「問題」を解決することだと考えています。この定義に従えば、「新規性」x 「効率性」x 「問題の大きさ」という掛け算でその研究の価値を計算することができます。ここで、「問題の大きさ」とは、この問題を解決することでどれくらいの規模の人・分野・応用事例などに貢献するかを指します。「効率性」とは相対的な概念であり、既存研究と比較してどのぐらいの性能向上が達成できているかを示すものです。良く誤解されるのですが「新規性」についても相対的な概念です。なぜなら、過去に提案された新規性のある手法も、一般的に知られた後では新規性が失われるからです。一方で、既に他の分野で提案されている手法を、別の分野に適用することで新たに実現出来たことがあるとすれば、それは「新規性」があると考えられます[5]。仮に、これらの三要素に「1, 10, 100」の3パターンでスコアをつけて研究価値を計算すると、1000点以上で良い研究、10000点以上でトップ会議に採択されるレベルの研究に値すると私は考えています。ポイントは、この点数の稼ぎ方の組み合わせは自由であるという点です。例えば、一般的な問題の大きさ(問題の大きさ:10点)に対して、既存手法の拡張方式を提案する場合(新規性:10点)でも、性能が著しく向上する場合(効率性:100点)には、大きな研究価値があると言えます。同様に、性能の向上は顕著ではない場合(効率性:10点)でも、問題に対して斬新な技術を提案している(新規性:100点)のであれば、同等に価値があるものです。個人的な見解ではありますが、皆様の研究価値を見定める際の一助になれば幸いです。
本受賞を励みに引き続き研究に努めて参ります。今後ともご指導、ご支援のほどよろしくお願い申し上げます。
[1] NEC Data Enrichment: ソリューション・サービス. https://jpn.nec.com/solution/dataenrichment/index.html
[2] Efficient Joinable Table Discovery in Data Lakes: A High-Dimensional Similarity-Based Approach. ICDE21. https://arxiv.org/abs/2010.13273
[3] Table Enrichment System for machine learning. SIGIR22 (demo). https://arxiv.org/abs/2204.08235
[4] Table Enrichment System Demo. https://youtu.be/HXikNjblUwU
[5] 例えば、BERT に代表されるmasked language modelは、自然言語処理(NLP)分野の事前学習において何年も前から用いられていますが、
コンピューター・ビジョン (CV) 分野においては同様の仕組みを用いたMasked Autoencoderが昨年提案され注目を集めた。
日本データベース学会 業績賞
楽天グループ株式会社
データに関わる研究を実施する際、実データを対象とした方が、効率的であり、研究者の研究意欲も高く保つことができると思っております。それは、世の中のニーズが的確に把握することができるだけではなく、提案手法の有効性をよりダイレクトに把握することができるためです。ただ、大学に籍を置いている先生や学生の皆様が、企業が保有する実データにアクセスをするためには、共同研究契約を締結しなければならないなど、なかなか容易ではございません。
このような問題を解決するために、2010年より、弊社のデータの公開を開始させていただきました。今現在、楽天市場や楽天トラベルをはじめとする4サービス11データセットを公開させていただいております。近年では、弊社のデータセットだけではなく、弊社のデータセットを基にして生成されたアノテーションデータも、データセットと共に公開をさせていただいております。おかげさまで、2022年3月現在、延べ283の研究機関の皆様に、弊社のデータセットをご活用いただいており、これまでに300を超える論文が執筆されております。さらには、企業データを対象としたDBSJ学生会員向けのデータ解析コンテスト「DBSJデータチャレンジ」の企画・運営にも、携わらせていただきました。弊社データセットをご活用いただいている皆様、DBSJデータチャレンジに参加していただいた皆様、誠にありがとうございます。
ただ、この一連の活動は、弊社のみで実施しているわけではございません。データの配布や事務手続きには、NII様やALAGIN様の多大なるご協力をいただいております。特に、NIIの大山先生、大須賀先生には大変お世話になっております。また、DBSJデータチャレンジの企画・運営は、リクルートの櫻井様と二人三脚で実施させていただきました。この場をお借りして、御礼を申し上げます。誠にありがとうございます。
この度の授賞により、弊社としましては、上述の活動をエンカレッジしていただいたと認識しております。引き続き、楽天のユーザ様、クライアント様にご迷惑をおかけしない範囲で、弊社のデータの更新、拡充をしていくことで、日本データベース学会、データに関連する研究コミュニティに貢献をして参りたいと存じておりますので、今後とも何卒よろしくお願いもうしあげます。