日本データベース学会

日本データベース学会 Newsletter 2023年8月号 ( Vol. 16, No. 4 )

目次

    1. PAKDD 2023 参加報告
      董 于洋 (Yuyang Dong)(NEC データサイエンスラボラトリー)
    2. SIGMOD 2023 参加報告
      新井 淳也(日本電信電話株式会社)
    3. ACL 2023 参加報告
      佐々木 勇和(大阪大学)

    本号では PAKDD 2023,SIGMOD 2023,ACL 2023 の3件の国際会議の参加報告をご寄稿いただきました.それぞれの会議の様子や招待講演の内容,ご自身が発表された研究内容などについて紹介していただいております.ぜひご覧いただければ幸いです.

    本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容についてのご意見がございましたらnews-com[at]dbsj.orgまでお寄せください.

    DBSJ Newsletter 編集委員会(担当編集委員 山室 健)


    1.PAKDD 2023 参加報告

    董 于洋 (Yuyang Dong)(NEC データサイエンスラボラトリー)

    PAKDD (The Pacific-Asia Conference on Knowledge Discovery and Data Mining) は知識発見とデータマイニングの分野の難関会議で、2023年5月25日(木)から5月28日(日)にかけて大阪でグランフロント大阪というおしゃれな場所に開催されました。発表者の5割、全体参加者の7割で合計200人弱が現場に集めていました。今年の論文の採択率は16.5%(143/869)で例年よりやや厳しいと感じまして、投稿数が多くカテゴリが Deep learning, Texts, webs and social media , Graphs and networksでした。今年のキーノートとチュートリアルについて、一番印象深いのは東北大、東工大、NTTから行ったチュートリアルであり、言語モデルの最新動向とChatGPTの能力の探索について丁寧に説明されました。学会でのイベントも充実していますが、豪華な美味しい弁当をもらったり、空中庭園展望台のチケットをもらったり、バンケットには歌舞伎の上演もあり、参加者が楽しんでいました。

    私は「QA-Matcher: Unsupervised Entity Matching Using A Question Answering Model」について発表しました。この研究は名寄せ(Entity matching)というデータセット間の中に同じエンティティを同定するという問題を、自然言語処理分野の質疑応答問題に変換して、事前学習済みのQAモデルを活用することで教師なしで解ける手法を提案しました。それの良い点は、(1)QAモデルが事前学習する時に、エンティティと属性の関係の知識が含めた質疑応答データセットもあり、それが名寄せの問題解決に役に立つ。(2)既存のモデルをpromptで調整するzero-shot方式のため、学習が必要なくてコストが低いです。さらに、この研究を行った段階ではChatGPTなどのOpenなLLMが流行っていないですが、今から見るとこの方式のQAモデルをLLMに変換すると、 (3) 大規模言語モデル(LLM)のinstructionに従う能力とin context learning能力を使い、必要に応じて名寄せのパラメータを調整することができるという良い点も出られると思います。私が所属した部署は、こういた言語モデルをいろんな分野に活用することについて研究開発はしていますが、さらに先日に、世界トップクラスの高性能な日本語の大規模言語モデル(LLM)[1] もスクラッチから開発しました。最後に、来年のPAKDD24は Taipei, Taiwanで開催される予定です。

    [1] NECの最先端技術 大規模言語モデル(LLM)を開発: https://jpn.nec.com/rd/technologies/202308/index.html

    著者紹介:
    董 于洋 (Yuyang Dong)(NEC データサイエンスラボラトリー)

    dong
    2019年筑波大学システム情報研究科博士課程修了。2019年よりNECデータサイエンス研究所に入社。2021年特別研究員となり、現在に至る。データ探索、データ統合、LLM for DB/ DB for LLMなどについて研究に従事。2021年度上林奨励賞。最近はNEC大規模言語モデルの研究開発にも従事。

    2.SIGMOD 2023 参加報告

    新井 淳也(日本電信電話株式会社)

    2023 年 6 月 18 日 〜 23 日にかけてシアトルで開催された ACM SIGMOD/PODS International Conference on Management of Data(以下,SIGMOD 2023)に参加し,論文を発表してきたことについて報告させていただきます.なお8 月 5 日(土)に ACM SIGMOD 日本支部の講演会でも参加報告を予定しておりますので,関心のある方はぜひご参加ください.

    【開催形態】
    SIGMOD はパンデミック以来オンラインまたはハイブリッド形式で開催されてきましたが,今年は完全に in-person に戻りました.参加者は 970 名以上で,こちらもコロナ前の 2019 年と同じ水準でした.オンライン配信はありませんが,キーノートや受賞講演は ACM Digital Library (DL) で今後公開されることになっています.また論文の著者は事前に発表の動画を提出しており,これは会議期間中から ACM DL で観ることができました.この動画は著者が現地参加できなかった場合に発表の代わりとしても上映されます.特に中国の著者はビザの問題で欠席が相次ぎ,6 件中 3 件が著者欠席となったセッションもありました.コロナの感染対策はまばらに消毒液などが置かれていた程度で,ほぼ全員ノーマスクで参加している様子からはパンデミックなどなかったかのような印象を受けました.また,SIGMOD では朝食と昼食が会議期間中ほとんどの日に用意されています.円安の中大変ありがたいことです.

    【査読】
    今回の research paper の採択率は 28.2%(186/660 件)でした.昨年は 29.4%(151/514 件)だったので,投稿と採択の両方が増え採択率は横ばいとなっています.投稿に関する最近の動きとして,SIGMOD は VLDB のようにジャーナルに近いスタイルへ移行しようとしています.まず今年から論文は Proceedings of the ACM on Management of Data (PACMMOD) というジャーナルとして公開されるようになりました.これに伴い,査読の時点では従来通り 2 カラムのカンファレンス形式で書いていた論文をカメラレディでは 1 カラムのジャーナル形式でレイアウトし直す必要がありました.さらに SIGMOD 2023 では 4,7,10 月に締め切りを設ける 3 サイクルの投稿スケジュールが採用されました.2022 までは 2 サイクル,2023 は 3 サイクルで,2024 は 4 サイクルとなっています.昨年と今年に共通する傾向として投稿件数は後のサイクルの方が多く,採択率は最初のサイクルが最も高くなっています.SIGMOD 2023 のそれぞれのサイクルの採択率は33.8%,25.7%,27.2% でした.

    【プログラム】
    私がグラフの研究をしているせいもありますが,今年はグラフに関するセッションの多さが目を引きました.論文数でも全体の3割程度がグラフ関連です.キーノートや受賞講演も興味深いものばかりで,特に SQL の設計者であるDon Chamberlin 博士の “49 Years of Queries” は講演後にスタンディングオベーションとなり,データベース分野における影響力の大きさを感じました.またJoseph M. Hellerstein 教授の Codd Innovations Award 受賞講演はビジュアル的にインパクトの強いスライドが並んでいるので,動画が公開されたらぜひご確認ください.

    【新井の発表】
    今回私が発表した論文”GuP: Fast Subgraph Matching by Guard-based Pruning”は私と同じく NTT の藤原,および阪大の鬼塚先生との共著です.DEIM 2018 で「探索失敗履歴を用いた高速サブグラフマッチング」として基本的なアイデアを発表してから紆余曲折あり時間がかかりましたが,無事今年 SIGMOD に採択されました.サブグラフマッチングは大きなグラフの中でクエリグラフと同型な構造を検索します.これはテキストデータにおける文字列検索と同じように極めて基本的な問題で,グラフデータベースのクエリ処理や金融取引データを元にした不正行為の検出など様々な場面で必要とされます.しかしサブグラフマッチングはNP 困難問題であり,最新の手法でも僅か 8 頂点のクエリグラフすら現実的な時間内に処理できないことがあります.そこで私たちはより多様なクエリグラフを安定して高速処理可能なアルゴリズムである GuP (Guard-based Pruning) を提案しました.既存手法で少なくとも 1 時間以上を要するクエリグラフの多くをGuP は 1 分以内に処理できます.詳細は論文をどうぞご確認ください.

    【おわりに】
    私は海外では HPC 系の会議に参加することが多くデータベース系の国際会議は今回が初めてでしたが,グラフをはじめ共通する研究テーマが多いので大変勉強になりました.また,現地でたまたま話した方が私たちの提案手法 (Rabbit Order [Arai+ IPDPS’16]) を研究で使っていると伺い,モチベーションの面でも大いにプラスでした.来年の SIGMOD はチリの首都であるサンティアゴで開催されます.ほとんど地球の裏側に位置しなかなか行く機会がない場所だと思いますので,チャンスのある方は参加してみてはいかがでしょうか.

    著者紹介:
    新井 淳也(日本電信電話株式会社)

    arai
    2013 年に東京大学大学院情報理工学系研究科修士課程を修了後,日本電信電話株式会社に入社.社会人博士として 2019 年に大阪大学大学院情報科学研究科博士後期課程を修了.博士(情報科学).効率的なグラフ処理アルゴリズムや並列分散処理の研究,および GPU やイジングマシンを用いた計算機システムの開発に従事.日本データベース学会,ACM 各会員.

    3.ACL 2023 参加報告

    佐々木 勇和(大阪大学)

    ACL 2023の参加報告を致します.ACLは言わずと知れた自然言語処理のトップ会議になります.第61回目となるACL 2023は7月9日から14日にカナダ・トロントで開催されました.非常に涼しく快適な気候でした.今回はメイン会議にて論文が採択されたのでポスター発表をしてきました.私は自然言語処理に関する国際会議に初参加したのですが,かなり盛り上がっていました.

    ACLにはおよそ4800件ほどの投稿があり,採択率はメイン会議で20%ほど,findings(メインでは採択できないけど惜しかった論文)で19%ほどでした.採択論文の著者の国籍は圧倒的に中国とアメリカ2強で,中国で4000弱,アメリカで2500程度であり,3位のイギリスでも250人程というデータでした.採択論文における中国の影響力の大きさがわかる一方で,査読者数はアメリカの方が多く,アンバランス差を感じました.

    ACL 2023において最も人を集めたイベントは,Geoffrey HintonのキーノートTwo Paths to Intelligenceではないかと思います.これまでの研究の歴史に加えて,デジタルな知能とバイオロジカルな知能の違いについての講演でした.歴史に関しては,かなり皮肉が入った表現もあり,例えば,”I was given some helpful advice. Neural networks don’t work: They cannot learn anything complicated.”など,やはり多くの批判があったんだなという印象です.また,世界初のニューラルネットの言語モデルは1985年という話もありました(I thinkの注釈付き).

    研究のトラックとしては,対話,情報抽出,大規模言語モデル,自然言語処理のための機械学習,自然言語処理応用の人気が高いとの報告でした.ACLの発表はほとんどがポスター発表のみで,自分の発表時以外は自由に興味のある発表のみを聞きに行くことができてよかったです.そろそろデータベースの会議もオーラル発表中心をポスター発表中心に移行しても良いのではないかなと感じました.

    私はHolistic Prediction on a Time-Evolving Attributed Graphという論文が採択されました.時系列的に変化するグラフの将来を予測するという問題をグラフ深層学習を用いて解いたという論文です.既存の論文と異なる点は,新たな節点の登場も含む全ての要素を予測するという点で,そのためにそれぞれの予測要素(リンク予測や属性予測)間の相関関係をいかに捉えるのか,新たな属性付き節点をいかに予測するのかというのが技術的な貢献点になります.興味がありましたら是非論文をお読みいただければと思います.

    著者紹介:
    佐々木 勇和(大阪大学)

    sasaki
    大阪大学大学院情報科学研究科の助教.グラフデータ分析と管理,モバイル・時空間データ分析と管理,情報処理技術の異分野適用に関する研究に従事しています.

    過去のNewsletterはこちらです。