日本データベース学会

日本データベース学会 Newsletter 2024年12月号 (Vol.17, No. 7)

目次

  1. ACM RecSys 2024 参加報告
    佐藤 政寛(富士フイルム株式会社)
  2. ACM CIKM 2024 参加報告
    董 于洋(NEC 生成AI技術開発統括部 & データサイエンスラボラトリー)
  3. ACM Multimedia 2024 参加報告
    松平 茅隼(名古屋大学)
  4. EMNLP 2024 参加報告
    肖 川(大阪大学)

冬晴れが心地よい師走の候,皆様におかれましてはお変わりなくお過ごしでしょうか.ますますご多忙の時期に恐れ入りますが,お体にお気をつけて良き新年をお迎えください.皆様のご健康とご多幸をお祈り申し上げます.

さて,本号では,10月に開催されました,推薦システム分野における世界最高峰のトップカンファレンス「 ACM RecSys 」をはじめ,情報検索,データベース,ナレッジマネジメントやマルチメディア,自然言語処理分野での最重要国際会議「 ACM CIKM 」,「 ACM Multimedia 」と「 EMNLP 」についてご寄稿いただきました.それぞれの会議の特徴や最近の傾向,トップカンファレンスへの投稿のメリット,論文採択に至るまでの工夫など,皆様のご参考になれば幸いです.

本号ならびに DBSJ Newsletterに対するご意見あるいは次号以降に期待する内容についてのご意見がございましたらnews-com [at] dbsj.orgまでお寄せください.

DBSJ Newsletter 編集委員会(担当編集委員 王 元元)


1.ACM RecSys 2024 参加報告

佐藤 政寛(富士フイルム株式会社)

 2024年10月14日から18日までイタリアのバーリで開催されたRecSys 2024 (18th ACM Conference on Recommender Systems)に現地参加してきました.RecSysは推薦システム分野のトップカンファレンスです.

 参加者数は1,123 名(うち現地参加者 919 名)で,コロナ前に参加したときと同様の盛況さを感じました.メインカンファレンスはシングルトラックで行われ,絢爛な劇場舞台での口頭発表でした.Research Papersの採択数は Full Paperが58本,Short Paperが39本で,どちらも採択率は 22%とのことでした.また今年は論文審査過程でAuthor Rebuttal がありました.( RecSys 2021 で同様のClarification Phaseが一度導入されましたが,3年ぶりの再導入) .

 キーノート講演は 3件あり,1)ユーザのニーズに寄り添った Human-CenteredExplainable AI ,2)経済学の観点を導入したAI研究(全体最適,不確実性評価,報酬設計),3)Spotifyにおける実践的研究(新規ユーザへの推薦や新規サービスのアイテムの推薦など)に関する講演でした.研究トレンドとしてはLLM (大規模言語モデル) の活用が増えており,中でもLLMを用いた学習データ生成や推薦の評価は比較的新しい活用法と思われます.また新規データセットとして,アイテム視聴前の事前期待値を収集したMovieLens Belief Dataset,ナレッジワーカーの情報アクセスを記録した RLKWiC Datasetが公開され,新しい研究につながると期待されます.

 私は Short paper として採択された「Calibrating the Predictions for Top-N Recommendations」をポスターで発表しました.推薦モデルのアイテムに対する予測値は,ランキングに用いる以外にも,ユーザに提示して意思決定の判断材料になるなど様々な用途があります.そのためモデルの出力値を真の期待値にマッピングするキャリブレーション手法が研究されてきました.しかし従来手法は推薦される上位アイテムに対しては過大評価や過小評価が生じることを本研究で示し,対処するための評価指標および学習手法を提案しました.

 最後に,来年の RecSys 2025 は9月にチェコのプラハでの開催予定で,投稿締切は過去の傾向から4月頃と予測されます.ぜひ投稿をご検討ください.

著者紹介:
佐藤 政寛(富士フイルム株式会社)
 富士フイルム株式会社主任研究員. 2005 年に東京大学理学系研究科物理学専攻修士課程修了,同年富士ゼロックス株式会社に入社.2020年に筑波大学システム情報工学研究科知能機能システム専攻博士課程修了.2022年富士フイルム株式会社に移籍.推薦技術を中心にしつつも広く機械学習・統計解析を用いた研究開発に従事.


2.ACM CIKM 2024 参加報告

董 于洋(NEC生成AI技術開発統括部&データサイエンスラボラトリー)

 CIKM (The Conference on Information and Knowledge Management) は情報と知識のマネジメント,データマイニング,レコメンデーションシステムの分野の難関会議で, 2024年10月21日から 25日にかけてアメリカのアイダホ州の州都ボイシで開催されました.ボイシはアメリカの最も治安が良いTop 5の都市であり,まるで日本と勘違いするほどの綺麗で自然風景もとても美しいところだと感じます.全体の参加者は 900人弱で,そのうち学生が全体の半分を占めていました.Full Paperが1,400件ぐらいの投稿で採択率が 23%でした.Short Paper でも800弱件の投稿があり,採択率が 25% とやや厳しいものでした.

 私と,大阪大学の張皓辰さんと肖川先生と共に「On the Use of Large Language Models for Table Tasks」というチュートリアルを発表しました.このチュートリアルでは,LLM (大規模言語モデル) が提案され普及してからの 2年間で,LLM を活用して表データの問題を解決する研究および動向を紹介します.具体的には,大規模言語モデルの利用を以下の5つの側面:prompt,finetune,RAG,agent,VLM に分類し,それぞれのカテゴリにおける最新の研究を紹介します.また,自分の LLM の訓練および性能向上の経験,そして実際の顧客の案件からの経験にも基づき,RAG やTableQAといった表データを扱う際に直面する実際の課題,解決策,最適化手法についても説明しました.すべての資料がウェブ [1] で一般公開なので,ぜひご覧ください.

 最後に,来年のCIKM 2025は Seoul, Korea で開催される予定です.

[1] チュートリアルの資料,
On the Use of Large Language Models for Table Tasks, CIKM 2024,
https://dongyuyang.github.io/tableLLM-tutorial/

著者紹介:
董 于洋(NEC生成AI技術開発統括部&データサイエンスラボラトリー)
 NEC生成AI技術開発統括部 & データサイエンスラボラトリー 主任研究員.2019年に筑波大学で博士号を取得し,同年に NEC に入社.NEC の大規模言語モデルcotomi シリーズについて研究開発に従事.


3.ACM Multimedia 2024 参加報告

松平 茅隼(名古屋大学)

 オーストラリアのメルボルンにて2024年10月28日から11月1日の期間中開催された,マルチメディア分野のトップカンファレンスである ACM Multimedia 2024(ACM MM 2024) に参加し,筆頭著者である論文の発表を行いました.昨年はカナダのオタワでの開催で,ビザの関係で多数の方が現地参加できない状態でしたが,今年はその点は問題なさそうで,学会会場は昨年より遥かに多くの参加者の方々で賑わっていました.本会議では, Tutorials,Workshops,Grand Challenges の他,大学・企業問わず活躍されておられる研究者の方々による Keynote Talks や Panel Discussion Session,企業研究の在り方を知ることができるIndustry Sessionsなど,様々な魅力的なイベントが開催されました.また,本会議に採択されたRegular Papers(採択率: 1149/4385 = 26.20%のすべてに対してポスター発表の機会が,一部の論文(174/4385 = 3.97%)には口頭発表の機会も与えられました.

 私たちの論文は,Stable Diffusion などに代表される Text-to-Image 生成モデルが複数の概念を生成画像中で混合する現象(Conceptual Blending)を定量的に評価し,それを我々が常日頃から研究している非語から画像生成する手法( Nonword-to-Image Generation )へ適用したという内容でした.幸運なことに,本論文は口頭発表論文として選出されたため,私は口頭発表とポスター発表の両方を行いました.私の口頭発表では,偶然にも Keynotes と同じ会場が割り当てられました.そのため,学生身分である私に対して驚くほど広い会場での発表となり,貴重な経験を積むことができました.発表の所感としては,本会議参加者の多くの方が,言語モデル・画像生成モデルの潜在空間を調査する本研究のトピックに興味を持ってくれたと感じます.更に幸運なことに,我々の論文は Best Paper Award にもノミネート(26/4385= 0.59% )されました.そのため,受賞論文の発表が行なわれるバンケットへも学生ながら参加しました.そのバンケット Gala Dinner では,現地のバンドThe Baker Boysによる生演奏と共に豪華な料理が提供されました.残念ながら受賞は叶いませんでしたが,会議や参加者の雰囲気に触れるまたとない機会となりました.途中から 23 時まではバンドの音楽に合わせてダンスするディスコのようなイベントでしたが,日本人の性に合わないためか,私を含め多くの日本人は途中で帰っていました.次回の ACM Multimedia 2025 はアイルランドのダブリンで開催予定です.本会議はトップカンファレンスながら極度に真面目過ぎるわけでも緩すぎるわけでもなく,私にとって居心地のよい雰囲気の会議だと感じます.そのような会議が好きな方,ダブリンに興味のある方は,ぜひ本会議への投稿をご検討ください.

著者紹介:
松平 茅隼(名古屋大学)
 名古屋大学大学院情報学研究科知能システム学専攻博士後期課程3年.2020年3月に名古屋大学工学部を卒業, 2022年3月に同大学大学院情報学研究科知能システム学専攻博士前期課程を修了,2022年4月より現在の所属に至る.自然言語や画像を対象としたマルチメディア処理,特に自然言語に対する人間の知覚のモデリングに関する研究に従事.


4.EMNLP 2024 参加報告

肖 川(大阪大学)

【開催形態】
 2024年11月12日から 16日にかけて,フロリダ州マイアミのハイアットリージェンシーホテルで開催された自然言語処理の国際会議 The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024) に参加しました.本会議は自然言語処理分野におけるトップクラスの学術会議で,データベース研究者としては初めての参加となりました.会議は非常に充実しており,多くの自然言語処理コミュニティの学生や若手教員と交流する機会がありました.また,美しい都市や食事,ビーチの景色を楽しむことができましたが,ロサンゼルスでの乗り換えを含む約20時間のフライトは少々大変でした.

【論文査読】
 EMNLP 2024 には合計 6,105件の論文が提出され,そのうち 1,271件が EMNLP Mainセクションで採択され,採択率は 20.8%でした.さらに,1,029件の論文がEMNLP Findings セクションで採択されました.採択された論文の中で,LLM(大規模言語モデル) と VLM (視覚言語モデル)が最も人気のあるトピックでした.

【私の発表】
 私の論文については,EMNLP Main と EMNLP Findingsでそれぞれ1本ずつ採択され,ポスターセッションで発表しました.EMNLP Main の論文では,LLM をデータ前処理に応用し,単一かつ低価格のGPUで動作する普遍的なデータ前処理タスクソルバーとして,NECとの共同研究で開発した指示データを用いてLLMをファインチューニングしました.EMNLP Findings での論文では,競争環境における LLMエージェントの自発的な協力を研究し,3つの競争シナリオを通じて協力の徐々に出現する様子をシミュレーションしました.この研究は人間の行動データと密接に一致しています.両方の発表は会議中,多くの聴衆から注目を集めました.

【おわりに】
 来年のEMNLP 2025は中国の蘇州で開催される予定で,さらに多くの論文提出と参加者増加が期待されています.私たちの研究チームも,データベース技術と自然言語処理の統合をさらに深め,より高度なデータ処理手法の開発に向けた研究を進めていく所存です.次回の会議では,これらの進展を共有し,同分野の研究者との更なる交流を図ることを楽しみにしています.

著者紹介:
肖 川(大阪大学)
 2010年にニューサウスウェールズ大学で博士課程を修了. 2011年に名古屋大学に入職.2014年に特任助教となり,2019年に大阪大学へ転職し,2021年に准教授に就任,現在に至る.2019年度には上林奨励賞を受賞.データ管理およびデータサイエンス分野に従事しており,最近では大規模言語モデルに関する研究にも取り組んでいる.


過去のNewsletterはこちらです。