日本データベース学会

日本データベース学会 Newsletter 2024年2月号 (Vol.16, No. 8)

目次

    1. IEEE Big Data 2023 参加報告
      浜田 捺希(慶應義塾大学 SFC研究所)
    2. SIG SPATIAL 2023 参加報告
      深澤 佑介(上智大学大学院 応用データサイエンス学位プログラム)
    3. NeurIPS 2023 参加報告
      金 秀明(NTT人間情報研究所)

    本号では国際会議IEEE Big Data 2023,SIG SPATIAL 2023,NeurIPS 2023の参加報告をご寄稿いただきました.会議の動向やご自身の研究内容などのご紹介となります.

    本号と DBSJ Newsletter に対するご意見あるいは次号以降に期待する内容についてのご意見がございましたらnews-com [at] dbsj.orgまでお寄せください。

    DBSJ Newsletter 編集委員会(担当編集委員 倉島 健)


    1.IEEE Big Data 2023 参加報告

    浜田 捺希(慶應義塾大学 SFC研究所)

     2023年12月15日から12月18日にかけてIEEE BigData 2023がイタリアのソレントで行われました.私はワークショップを含む全日程で会議に現地参加しました.IEEE BigDataはビッグデータに関する研究であれば広く受け入れている学会となっており,42もの幅広いジャンルのワークショップが併設されています.採択の数値感としては全投稿数が526となっており,そのうちレギュラーペーパーの採択数は92(17.4%),ショートペーパーの採択率は111(21.1%)となっております.国別の著者数としてはレギュラーペーパーではアメリカが254,中国が84,日本が26となっており,ショートペーパーでも同様のランキングでアメリカが207,中国が72,日本が57となっております.どちらも日本が3位であることから,この学会において日本のプレゼンスは高いと言えるでしょう.実際に体感としてもイタリア開催であるにも関わらず,他の国際会議に比べて日本の参加者や発表者が多いように見受けられました.

     今年は基本的に現地参加ですが,学会に参加できない場合には発表をレコーディングして送ることで現地でレコーディングが流され,質疑がある場合は著者に直接メールを送るという方式が取られておりました.私の参加したセッションでは発表数6件の内5件がレコーディングであったことから現地参加は少なかったかと思われます.招待講演はStratos Idreos(Harvard University, USA), Vipin Kumar(Univ. of Minnesota, USA), Qiong Luo(HKUST and HKUST (Guangzhou), China), Minos Garofalakis(Technical University of Crete, Greece), そして2020年にチューリング賞を獲得しているJeffrey Ullman(Stanford University)の5名が講演されました.特に興味深かったのはStratos Idreos氏の講演で自己設計型のデータシステムをデザインし,様々なワークロードやハードウェア,利用可能なクラウド予算に最適化するために異なるデータ構造やアルゴリズムを自動的に形作ることができるというものでした.

     私はショートペーパーで「Qobra: Fast Verification of Transactional Serializability with Quantum Annealing」が採択されましたので,こちらについて発表しました.逐次化可能性は,データベース内のトランザクション処理において正常な実行を保証するために利用される基準ですが,現代のクラウドデータベースはこの逐次化可能性を担保しているとは限らないため,ユーザー自身で逐次可能性を判定することが求められます.しかしながらユーザーにとってクラウドデータベースの実装はブラックボックスであるため,判定することは難しいです.これは「ブラックボックス逐次化可能性問題」と呼ばれる判定問題であり,NP完全であることが知られています.従来研究の「Cobra」では,充足可能性問題の汎用ソルバーである SMTソルバーを使用してこの問題を解くアーキテクチャを提案していますが,トランザクション数が増加することで探索範囲が指数関数的に広がり、逐次化可能性を判定することが困難となります.一方で量子アニーリングは組合せ最適化問題の高速求解に優れており,このような判定問題にも応用可能です.本論文では,量子アニーリングを使用してブラックボックス逐次化可能性問題を高速求解する手法「Qobra」を提案しました.評価の結果,従来研究の751-890倍の高速化に成功しました.

     最後に次回の開催はアメリカのワシントンDCです,先ほども述べました通り,著者数はアメリカが最も多い結果となっておりましたので,次回もこの傾向が続けば現地発表も多くなるかと思われ,有意義な議論が行うことができるかと思われます.

    著者紹介:
    浜田 捺希(慶應義塾大学 SFC研究所)
     2023年慶應義塾大学政策・メディア研究科修士課程修了,同年SFC研究所所員として所属.実社会の組合せ最適化問題に量子アニーリングを適用し,高速求解を行う研究を行なっている.アルバイトのシフトを最適化するシフトスケジューリング問題,トランザクション処理の正当性を判定するブラックボックス逐次化可能性問題などの量子アニーリングの効果的な適用へ取り組む.


    2.SIG SPATIAL 2023 参加報告

    深澤 佑介(上智大学大学院 応用データサイエンス学位プログラム)

     SIG SPATIAL 2023 (31st ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems)が2023年11月13日から11月16日までドイツのハンブルグ市で開催されました.SIG SPATIALは,1993年にワークショップとシンポジウムとして始まり,今年で31回目になります.地理空間情報に関するデータ管理,機械学習,データマイニング,アプリケーション,可視化など様々なトピックを扱っています.参加者数は,2022年は300人,今年は322人でした.コロナ禍前の2019年は397人でしたのでだんだんと戻りつつある状況でしょうか.今年はドイツで開催されたため,ヨーロッパの参加者が67人から140人へと2倍に,アジアの参加者は45人から76人へと1.5倍になりました.逆に北米の参加者は181人から86人へと半減しました.

     本会議であるResearch, Systems and Industrial Experienceトラックには189件の応募があり,そのうち38件がフルペーパーとして採択され(採択率20.1%),22件がポスターとして採択されました.また会議の初日に17のWorkshopが開催されました.本会議に採択された論文のトピックですが,例年通り「交通予測」「画像解析」「グラフ解析」に関する研究が多かった印象です.Fuxianらは,渋滞予測のため,ある場所での渋滞の長期的な周期性と,隣接する道路ネットワークへの時空間的な影響をGNNにより同時にモデル化する手法[1]を発表しました.また,Yuらは,あるブランドが次のどのエリアに出店するかを予測するためGNNを用いてブランドとエリアの関係をモデル化する手法[2]を発表しました.画像解析では,Zelinらは,衛星画像から洪水の発生マップを作るため,洪水の発生に関する知識とDNNを融合し少量ラベルからモデルを作る方法を提案[3]しました.この研究はベストペーパ―に選ばれました.また,今年のSIGSPATIAL GISカップでは,衛星画像からグリーンランドの氷河上湖(夏になり表面の雪が溶け氷床の上に形成される湖)の大きさを自動識別するタスクでした.温暖化が進むなかで地球環境の変動に関する地理空間情報の解析も大きな関心を集めているようです.

     ポスター・デモ発表では,Microsoft社のChatGPT×マップサービスを活用した研究が印象的でした[4,5].ChatGPTを活用することで目的地検索やルート検索でユーザの意図を正確に把握した検索ができるようになるそうです.たとえば,「カジノロワイヤルでジェームズボンドが訪問した場所を教えて」や「景色の綺麗なルートを教えて」などが挙げられていました.また,本会議とは別にData and Resource Trackが開催されました.地理空間情報は入手しづらく,地理空間データセットの構築に取り組むことの重要性が分かります.

     キーノートでは,MITのProf. Dr. Carlo Rattiから「Senseable Cities」のタイトルで講演がありました.ボートにLiDARを搭載し街の水路上を自動で航行させ,水路から見た街の3次元地図を作る取り組みや,Google Street Viewの画像からの街の中の緑化の度合を推定する取り組みなどが魅力的な映像とともに紹介されていました.また,カメラで録画中のPCをわざと公衆の場所に放置しておき,無断で持ち帰った人の様子をセンシングするなどエッジのきいた取り組みも紹介されていました.

     私は修士1年の鈴木維浩さんとともにWorkshopの一つであるデータ分析コンペティション HuMob Challengeに参加しました.本大会では,主催者から提供された10万人の75日間の人々の移動データに基づき,未提供の2万人の15日の移動データを予測する課題に挑戦しました.私たちのチームは個人の移動ログのみからその個人の移動を予測するパーソナライズモデルを提案しました.このモデルでは,予測精度に影響する特徴量として,移動先の施設数や活動時間に関する特徴量,移動履歴のクラスタリングなど様々な特徴量を提案し実装しました.87チーム(200人)のエントリーがあり,実際には,20チームの投稿があったとのことです.10位に入ったチームが講演をしました.順位は当日に発表され,私たちのチームは4位でした.主催者によれば,10位に入った手法を分類すると,Transformer(4チーム),機械学習(5チーム),モデリング(1チーム)の大きく3つの手法に分かれたそうです.1位と2位のチームはTransformerを採用しており,系列データに対するTransformerの強さが分かります.

     来年のACM SIGSPATIAL 2024はアメリカのアトランタで開催されるようです.音楽や絵画などアートシーンにあふれる街の様子が魅力的な映像で紹介されていました.冬でも温かいようですので,ご興味ある方は参加を検討されてみてはいかがでしょうか.

    [1] Fuxian Li, et al. : Periodic Shift and Event-aware Spatio-Temporal Graph Convolutional Network for Traffic Congestion Prediction, ACM SIG SPATIAL. 2023.
    [2] Yu Liu, et al. : KnowSite: Leveraging Urban Knowledge Graph for Site Selection, ACM SIG SPATIAL. 2023.
    [3] Zelin Xu, et al.: Spatial knowledge-infused hierarchical learning: An application in flood mapping on earth imagery, ACM SIG SPATIAL. 2023.
    [4] Chiqun Zhang, et al. : Map GPT Playground: Smart Locations and Routes with GPT, ACM SIG SPATIAL. 2023.
    [5] Renzhong Wang, et al. : GPT Applications in Relevance Model Training in Map Search, ACM SIG SPATIAL. 2023.

    著者紹介:
    深澤 佑介(上智大学大学院 応用データサイエンス学位プログラム)
     2004年東京大学大学院工学系研究科修士課程修了.2004年-2023年株式会社NTTドコモにて機械学習のビジネス応用に関する研究開発に従事.2011年東京大学大学院工学系研究科博士後期課程修了.2011年-2019年東京大学人工物工学研究センターにて協力研究員および客員研究員を兼任.2019年より早稲田大学イノベーション研究所招聘研究員を兼任.2023年4月より上智大学大学院応用データサイエンス学位プログラム准教授に就任.現在に至る.研究テーマは,交通・ヘルスケアなど実世界データへの機械学習応用,情報推薦・パーソナライゼーション.博士(工学).


    3.NeurIPS 2023 参加報告

    金 秀明(NTT人間情報研究所)

     2023年12月10日から12月16日にかけて米国ニューオリンズで開催された機械学習におけるトップ会議NeurIPS 2023 (Thirty-seventh Annual Conference on Neural Information Processing Systems) に現地参加してきました.

     今期の投稿数はNeurIPS史上最大の12343本!で,採択数は3218本(採択率26.07%)でした.機械学習分野の他のトップ会議の投稿数(ICML 2023 では6538本,ICLR 2023 では4956本)と比べてみると,当該分野においてNeurIPSが特に注目されていることが窺えます.採択論文は基本的にすべてポスター形式の発表を行いますが,ごく一部(採択率0.5%)の優れた論文には口頭発表の枠が与えられます.また,近年はMain Conferenceとは別に Datasets and Benchmarks Trackと Journal Trackが併設されており,特にDatasets and Benchmarks Trackは昨年の2倍の投稿数(987本)でその存在感を増してきています.

     発表全体の傾向として,理論から応用まで(どちらかというと理論が強め),メディア処理,時系列分析,強化学習,神経科学など様々なドメインの研究が発表されていましたが,今年は特に言語モデル系の研究が目を引きました.実際,ベストペーパーに相当するOutstanding Paper/Running-up Awardsの4件の内,1件を除いてすべてが言語モデルに関するものであり,ここでも大規模言語モデル(LLM)のビッグウェーブを肌で感じました.この傾向は少なくとも数年は続くのではないかと思います.

     今回,私はMain Conferenceにて「Survival Permanental Processes for Survival Analysis with Time-Varying Covariates」というタイトルで発表を行いました.イベントが発生した時刻の系列データを扱うイベント時系列分析の中でも,特にイベントが観測期間中に最大1度しか発生しない状況を扱う「生存分析」に対する新たなベイズ的分析手法を提案したものになります.生存分析の主要なタスクは,点過程と呼ばれる確率過程において定義される強度関数(単位時間当りのイベント発生確率)と共変量の関係性をデータから学習することです.提案手法は,時間変動する共変量と強度関数の関係性をベイズ的にかつスケーラブルに推定することのできる初の手法です.私は,経路積分表現に基づく点過程とガウス過程を組み合わせたモデルの新たな解析手法をNeurIPS 2021にて発表して以降,それを活用した研究成果をNeurIPS 2022,そして(今期の)NeurIPS 2023で発表しています.本手法の活用先は他にも色々とあり,NeurIPS等で今後も発表を続けていきたいと思っています.

     最後にNeurIPSの査読システムについて.NeurIPSは2021年からOpenReviewによる査読を採用しています.それに伴い,著者がレビュアとインタラクティブに議論できる期間が設けられました.NeurIPS 2023では12日間とかなり長く,著者とレビュア双方に相当な負担が発生したわけですが(SNS上ではレビュアによる怨嗟の声が・・),その対価として理不尽な査読を受けるリスクが明らかに軽減したと著者の立場として感じました.今年は12924人!ものレビュアが査読に関わったとのことで,そうなると査読の質を担保することが非常に難しいでしょうから,インタラクティブな議論フェーズを含む査読システムへの移行は必然であったように感じます.次回の NeurIPS 2024 はバンクーバーでの開催です.レビュアとの議論(戦い?)のための十分な時間を確保し,注目度の高いNeurIPSにみなさまの研究を投稿されてみては如何でしょうか.

    著者紹介:
    金 秀明(NTT人間情報研究所)
     2013年京都大学大学院理学研究科物理学・宇宙物理学専攻博士後期課程修了.博士(理学).2013年から2016年まで日本電信電話株式会社,2016年から2019年まで株式会社NTTデータ,2020年から日本電信電話株式会社 人間情報研究所,で現在に至る.点過程やガウス過程などの確率過程を利用した,イベント時系列に関するデータマイニング,機械学習の研究に従事.


    過去のNewsletterはこちらです。