日本データベース学会

dbjapanメーリングリストアーカイブ(2020年)

[dbjapan] DBSJ Newsletter Vol. 13, No. 3: ECIR2020, ICDE2020


┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2020年6月号 ( Vol. 13, No. 3 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

本号では,国際会議の参加報告を2件ご寄稿いただきました.4月に開催された情
報検索分野の国際会議であるECIR 2020と,データベース分野の国際会議である
ICDE2020のご報告です.新型コロナウィルスの蔓延により,中止や延期を余儀な
くされた国際会議もある中で,2件ともオンライン会議という新しい試みで開催
されました.新しい形での開催であるため,今までにはない内容となっています.

本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内
容についてのご意見がございましたらnews-com [at] dbsj.orgまでお寄せくだ
さい.

                日本データベース学会 電子広報編集委員会
                      (担当編集委員 吉田 諭史)

========================================================================

----
目次
----
1.ECIR 2020 参加報告
  加藤 誠(筑波大学)

2.ICDE 2020 参加報告
  梅本 和俊(東京大学)

------------------------------------------------------------------------

■1■ ECIR 2020 参加報告
                           加藤 誠(筑波大学)

2020年4月14日から17日までの間,オンラインにて開催された,European
Conference on Information Retrieval (ECIR) 2020に参加してきました.ECIR
は情報検索に関する国際学会で,情報検索系の国際学会の中では2nd tierに位置
する国際学会だと思われます.例えばビジョン系ではECCVというヨーロッパの国
際学会が他の1st tierの国際学会であるCVPRやICCVと同列に扱われるということ
もあるそうですが,ECIRは1st tierの国際学会であるSIGIRには少し開きがあり
ローカル色もやや強い(ヨーロッパからの参加者が相対的に多い)ようです.一
方で,トピックや運営メンバーなどはSIGIRとだいたい同じであるためか,SIGIR
が少し小規模になったようなイベントだったように思います.

ECIR 2020はCOVID-19の影響を受け,2020年3月11日に情報検索系の国際学会とし
ては初めてのオンラインイベントとして開催されることが発表されました.さら
に,登録さえすれば誰でも参加可能なオープンイベントであったため,最終的な
参加者は1,000名を超えました.学会の開会式時点で最も参加者が多かった国は
アメリカで113名が参加,次いでフランスが99名,もともとの開催国であるポル
トガルがこれに続き95名が参加していました.なお,日本からの参加者数は30名
でした.ECIR 2020への投稿数は457件で,このうち55件がFull paper(採択率
26%),46件がShort paper(採択率 28%)として採択されていました.学会中に
はLong paper(Full paper + α)のセッションとしては以下の10セッションが
ありました: Deep learning,Recommendation,Entities,QA and queries,
Retrieval,Evaluation,Multimedia,Information extraction,CLEF,
Reproducibility.Deep learningは言わずもがな,という感じですが,一方で,
Reproducibilityという再現性に関するセッションがあり,これは論文募集の段
階で別トラックとして募集されるなど,興味深い傾向だと思います.近年,多く
の深層学習に基づく論文が出ている一方で,その再現性について多くの疑問が噴
出していることを反映しての試みだと思われます.また,EntitiesとEvaluation
というセッションはなかなか情報検索系らしいかと思います.評価は長年にわたっ
て情報検索における重要なトピックの1つであり,一方でエンティティについて
は比較的最近,数年にわたって人気のある研究トピックだと思われます.

私はこのEntitiesセッションにて,以下の研究内容について発表をいたしました:
Makoto P. Kato, Wiradee Imrattanatrai, Takehiro Yamamoto, Hiroaki
Ohshima and Katsumi Tanaka: Context-guided Learning to Rank
Entities. https://doi.org/10.1007/978-3-030-45439-5_6
この研究では,エンティティの順位付けをエンティティの特徴に基づいて行う場
合に,しばしば,過学習が起こってしまうことを問題として取り上げ,その解決
法として文脈誘導型学習という機械学習アルゴリズムを提案しました.例えば,
平和な国ランキングがあったとして,これをGDPや警察署の数,国土面積などの
国の特徴から再現することを考えます.このとき,国の数(つまり,訓練データ
数)は一定であるのに対して,特徴の種類数は無数に考えることができます.そ
のため,パラメータ数が多く訓練データ数が少ないという,過学習が非常に起こ
りやすい状況に陥ってしまいます.この研究では,ランキングの名称(上記の例
では「平和」)と特徴の名称(「GDP」など)の文脈(両語句を含む文)からも
パラメータの値を推定することによって,主たるランキング学習を補助し,過学
習に陥らないようにする方法を提案し,様々なランキングの学習において大きな
改善が得られることを示しました.発表自体はZoomのウェビナーが用いられ,録
画された内容はYouTubeにて公開されておりますので,もしご興味があればご覧
ください:https://www.youtube.com/watch?v=wX6OaNPtadY&t=1161s

ECIR 2020の基調講演としては,IDF (inverse document frequency)を発明した
Karen Sparck Jonesの名を冠した賞,Microsoft BCS/BCS IRSG Karen Sparck
Jones Award 2019の受賞者であるChirag Shahの講演「Task-Based Intelligent
Retrieval and Recommendation」やJamie Callanによる講演「Better
Representations for Search Tasks」などがありました.両講演に共通する点と
して,単に検索クエリが表すトピックへの適合性だけでなく,利用者が取り組む
タスクへの適合性を考慮したような情報検索への展望が多く語られていた印象が
ありました.おそらくですが,スマートフォンやスマートスピーカでの,対話に
よる情報検索に関する研究が流行ってきていることと関連があるのではないかと
思います.

最後に,ECIR 2021はイタリア,ルッカで開催される予定だそうです.

------------------------------------------------------------------------

■2■ ICDE 2020 参加報告
                         梅本 和俊(東京大学)

2020年4月20日から24日まで開催された36th IEEE International Conference on
Data Engineering (ICDE 2020) に参加しました.DBSJ会員の皆様には説明不要
かもしれませんが,ICDEはSIGMOD・VLDBと並ぶ(正確にはそれらに次ぐという感
じなのでしょうか?)データベース分野のトップ国際会議の1つです.対象トピッ
クはデータベースコア技術に限らず,データマイニングやソーシャルネットワー
ク,クラウドソーシングなど,データに関していれば何でもござれという印象で
す.ICDE 2020は当初,アメリカのテキサス州ダラスで開催予定でしたが,新型
コロナウィルス感染症の世界的な大流行により,オンラインでの開催となりまし
た(その模様は後述します).完全オンライン化にともない,移動が不要になっ
たことや,参加費が大幅に値下げ(著者は300ドル,それ以外は0ドル!)された
こともあってか,参加登録をした人は約2000人(従来の3,4倍)に上ると
Welcome Sessionで報告されていました(そのうち,どれくらいがアクティブに
参加していたかは分かりませんが…).

先に大事なことを述べておくと,KeynotesやAwards Sessionを含むほぼ全ての発
表を録画したものが既に公開されています.プログラム [1] のVideoリンクを
辿るか,ここ [2] からカテゴリ・トピックを指定することで,ICDE 2020に参
加できなかった方も会議の様子を追体験できます.オンライン講義やオンライン
会議等で既に同様のことを実感されている方は多いかもしれませんが,国際会議
の実施にビデオ会議ツールを用いることで,発表の記録が遥かに容易になってい
るなと感じました.

Research Trackは,昨年に引き続き,今年も2ラウンド制(年に2回の独立した締
切)で,各ラウンドともにAccept/Revise/Rejectという3段階判定が採用されま
した.投稿件数(desk-reject除去後)は273 + 295 = 568件で,そのうち63 +
66 = 129件(22.7%)がfull paperとして採択,28 + 27 = 55件(9.6%)がshort
(poster) paperとして採択されたとのことでした.投稿数の多いエリア上位3件
は,「Data Mining and Knowledge Discovery」,「Graphs, RDF, Web Data and
Social Networks」,「Temporal, Spatial, Mobile and Multimedia」 で,その
後にデータベース要素の強いものが続いていました.グラフが人気なのは相変わ
らずで,マイニングが多いのはシステム系に比べて短期間で論文を出しやすい
(?)というのも一因としてあるのかなと思いました.一方,採択率の高いエリ
アは大きく異なり,「Modern Hardware and In-Memory Database Systems」,
「Database technology for machine learning」,「Machine Learning for
Database Systems」といったデータベース色の濃いものが上位に並んでいました.
ハードウェア周りの大きな変化の理解・活用や,データベース問題に対する機械
学習技術の適用(とその逆)といった,より最近のトレンドに取り組んでいる研
究が受け入れられやすいということが如実に表れているという印象を受けました
(もちろん,そういう研究の質が高いから採択されやすいというのもあると思い
ます).

キーノートは(Awards Sessionを除くと)4件ありました.実はもう記憶が曖昧
なのですが,個人的に気になったのは「AI-Powered Data Management and the
Future of Software」でした.Microsoft Teamsのノイズキャンセリング機能が
機械学習モデルで実現されていることを導入例として取り上げた後で,複雑なコー
ドを大量に書く従来のソフトウェア開発(Software 1.0)と,データから学習し
た機械学習モデルに複雑な動作をさせる新たなソフトウェア開発(Software 2.0)
が対比されていました.そして,前述の「Machine Learning for Database
Systems」の動向に話が繋がっていきました.データベースシステムの一部を機
械学習モデルで実現する研究としては,SIGMOD 2018の論文「The Case for
Learned Index Structures」が有名かと思いますが,ICDE 2020のResearch
Sessionでも「Reinforcement Learning with Tree-LSTM for Join Order
Selection」や「Automatic View Generation with Deep Learning and
Reinforcement Learning」など様々な取り組みが発表されていました.将来的に
本当に置き換わるかは分かりませんが,機械学習分野とのコラボレーションによ
る革新の可能性があるという意味で,注目に値する取り組みであるように個人的
には感じました.別のキーノート「Big Data in Climate and Earth Sciences:
Challenges and Opportunities for Data Science」では,地球環境を予測する
上でのリアルな課題(正解データの欠如,データの不均衡,…)とそれに対する
取り組みが紹介されていました.その他の2件のキーノートや各受賞については,
ここに書くには紙面(と私の知識・記憶)が足りないので,繰り返しになります
が,興味のある方はビデオ [1] [2] をご覧になることをお薦めします.

私の所属する研究室に関連する話題が2つあります.まず,Awards Sessionにて,
喜連川先生が2020年のIEEE Innovation in Societal Infrastructure Awardを受
賞したことが発表されました.ここ [3] にも書いていますが,医療や地球環境
など様々なドメインの実問題に関する大規模データを収集し,それを活用する先
進的なプラットフォームを開発・運用したことが受賞理由とのことでした.喜連
川先生,おめでとうございます!もう1つは,私,Tova Milo先生(Tel Aviv
University),喜連川先生の「Toward Recommendation for Upskilling:
Modeling Skill Improvement and Item Difficulty in Action Sequences」とい
う研究をResearch Trackで発表したことです.これはTova Milo先生が所属研究
室を訪問している際に一緒に取り組み始めた研究で,いくつかのreject判定を経
験しましたが,最終的にICDEに採択されて良かったと思います.

私にとってオンライン開催への参加は,国内のDEIM 2020,情報検索系の国際会
議ECIR 2020に続く,3回目の経験となりました.ICDE 2020では,Keynoteなど
plenary形式のものについてはZoomウェビナーが,Research Sessionのように並
列開催のものについてはZoomミーティングが使われていました.前者は,一般参
加者のカメラ・マイクの制御を気にする必要がなく,また専用のQ&Aパネルによ
り多数の質疑の管理も容易になります.後者は,そういう機能がない代わりに,
参加者の様子を把握しやすくなります.参加者数の規模に応じて,適切なツール
が選択されていると感じました.また,Research Sessionの発表については,事
前に録画した発表動画をスタッフが流し,質疑だけ著者がライブで対応するとい
う方法が採用されていました.これは,(現地開催でもよくある)接続トラブル
を避けたり,時差の大きい発表者の負担を減らしたりするという狙いがあったの
ではないかと思います.結果的に,私の参加したセッションでは大きなトラブル
はあまりありませんでした.(自分の発表を動画で見て,その後で質問に回答す
るというのはちょっと不思議な感じもしましたが.)ただ1つ,微妙だなと感じ
たのは,参加者間のコミュニケーション用にSlackのワークスペースが作られた
のですが,私の観測範囲内ではあまり活発な議論が見られなかったという点です.
1つの理由として,あまりに多くのチャンネルが作られすぎて(1チャンネル/セッ
ション),各チャンネルが過疎化してしまったということがあるかもしれません.
DEIM 2020に参加した時も感じましたが,セッション以外で他の参加者と交流す
るのが難しく,新たな知り合いを作りづらいのが,オンライン開催の会議で解決
すべき課題の1つであるように思います.とは言うものの,大したトラブルもな
く自宅から出ることなく国際会議に参加し,そこで発表できたのは運営スタッフ
の並々ならぬ努力があったからだと思います.Welcome Sessionの最後の方でも
話題に挙がっていましたが,オンライン開催決定からの短期間で会議を成功に導
いた全ての関係者に私も感謝しています.

最後に宣伝です.ICDE 2021 [4] は,ギリシャのクレタ島で開催される予定との
ことです.Research Trackの第1ラウンドは6月締切なのでもうすぐそこですが,
第2ラウンドは10月締切なのでまだ十分に時間があります.日本のデータベース
コミュニティやその関連コミュニティからも多くの投稿・発表・参加があると良
いですね.

[1]: https://bit.ly/3gpRxCy
[2]: https://bit.ly/2B2D2EB
[3]: https://bit.ly/2ZEHjsb
[4]: http://www.icde2021.gr/

========================================================================

--
--------------------------------
吉田 諭史
日本電気株式会社
Email: s.yoshida1044 [at] gmail.com
--------------------------------