日本データベース学会 Newsletter 2024年10月号 (Vol.17, No. 5)
目次
-
ICML 2024 参加報告
金森 憲太朗(富士通株式会社) -
KDD 2024 参加報告
小幡 紘平(大阪大学 産業科学研究所 櫻井・松原研究室) -
ECML PKDD 2024 参加報告
鈴木 浩史(富士通株式会社)
本号では国際会議ICML 2024、KDD 2024、ECML PKDD 2024の参加報告をご寄稿いただいております。会議の動向やご自身の研究内容などのご紹介となります。
本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容についてのご意見がございましたらnews-com[at]dbsj.orgまでお寄せください.
DBSJ Newsletter 編集委員会(担当編集委員 丸橋 弘治)
1.ICML 2024 参加報告
金森 憲太朗(富士通株式会社)
2024年7月21日から27日にかけて、オーストリアのウィーンにて、機械学習分野のトップカンファレンスである ICML 2024 (Forty-First International Conference on Machine Learning) が開催されました。私は採択された論文発表のために現地参加しましたので、その報告をさせていただきます。
今年は9473件の論文が投稿され、2610件が採択されました(採択率27.6%)。投稿数は前年比44%増加しており、機械学習研究の競争がますます激化していることが見て取れます。採択論文のうち、査読評価の高かった上位3.5%(335件)がSpotlight Paper に、さらに上位1.5%(144件)が Oral Paper にそれぞれ選定されました。発表形式は、すべての論文がポスター発表を行い、Oral Paper に選定された144件については口頭発表も行われました。
会議は、最初の2日間が Expo(スポンサー企業によるセッション)とチュートリアル、続く3日間が本会議、そして最後の2日間がワークショップというスケジュールでした。傾向としては、本会議の採択論文だけでなく、チュートリアルやワークショップのテーマも、その多くが大規模言語モデル(LLM)に関するものでした。LLM 関連論文は、Transformer の解析のような理論研究だけでなく、少データ環境での fine-tuning など実用的なテクニックに関する研究も数多く見受けられ、LLM 研究の広がりを肌で感じました。一方で、強化学習、連合学習、公平性や解釈性といったトピックの研究も依然として活発でした。
今年からの特色として、Main Conference Track とは別に Position Paper Trackが新設されました。これは、機械学習分野に重要な貢献をするものの、伝統的な学会論文の型にはまらない研究を推奨し、研究コミュニティの意見を必要とするタイムリーなトピックに関する議論を促進することを目的としているようです。今年は、投稿された286件のポジション論文のうち75件が採択されました(採択率26.2%)。個人的には、「機械学習研究コミュニティは否定的な結果に関する論文も受け入れるべき(提案手法が SOTA に勝てなかったとしても、研究コミュニティにとって価値がないとは限らない)」という主張をした論文 “Position: Embracing Negative Results in Machine Learning (Karl et al.)” が特に印象に残りました。
最後に我々の採択論文 “Learning Decision Trees and Forests with Algorithmic Recourse (Kanamori et al.)” について簡単に紹介します。アルゴリズム的償還(algorithmic recourse)は、機械学習モデルから肯定的な判定結果(例えば、融資の承認)を得るためにユーザがとるべきアクションを説明するフレームワークであり、実社会におけるデータ駆動型意思決定の信頼性を向上させる技術として近年注目されています。この論文では、ユーザにとって現実的なアクションの存在を保証しつつ、高精度な決定木およびランダムフォレストを効率よく学習する技術を提案しました。上位3.5%に相当する Spotlight Paper に選定されたこともあり、ポスター発表では大学・企業問わず多くの研究者と実りのある議論を行うことができました。
ICML 2025 は、カナダのバンクーバーにて2025年7月13日から19日の日程で開催される予定です。論文投稿や現地参加を検討されてみてはいかがでしょうか。
著者紹介:
金森 憲太朗(富士通株式会社)
2.KDD 2024 参加報告
小幡紘平(大阪大学 産業科学研究所 櫻井・松原研究室)
2024年8月25日から8月29日まで、スペインのバルセロナで開催されたACM SIGKDD International Conference on Knowledge Discovery and Data Mining(以下、KDD)に参加しました。ご存知の通り、KDDはデータマイニング分野のトップカンファレンスです。今年のリサーチトラックでは2046本の投稿のうち411本が採択され(採択率20.1%)、全ての採択論文が口頭とポスターで発表されました。依然として投稿数の増加傾向がみられており、KDD’24では投稿に際して昨年から以下の変更がなされました。
(1)採否判定を採択、不採択、再提出の3種類とした。
(2)一著者あたりの最大投稿数を7件に制限した。
(3)著者のうち最低でも一人を査読者として登録することを義務付けた。
結果として、査読者の数が昨年の1051人から2619人に増加し、各投稿に対して最低4件以上のレビューが行われたそうです。さらに、査読者の割り当てに地理情報が利用され、各投稿に対して同じ地域からの査読者が過半数を占めないように配慮されたそうです。
私たちの研究室からは、リサーチトラックで2本の研究論文が採択されました。一本目は「Fredformer: Frequency Debiased Transformer for Time Series Forecasting」というタイトルで、筆頭著者はXihao Piaoです。この研究では、Transformerモデルにおける周波数バイアスの問題を初めて詳細に分析し、この現象が時系列予測に与える影響を明らかにしました。従来のモデルが低周波成分に偏り、高周波成分を無視する傾向を持つことを指摘し、これを軽減するための新しいモデル「Fredformer」を提案しました。このモデルでは異なる周波数帯域の特徴を公平に学習させることで、バイアスを解消しています。
二本目は私が筆頭著者で、「Mining of Switching Sparse Networks for Missing Value Imputation in Multivariate Time Series」というタイトルの論文を紹介しました。この研究では統計モデルによる多次元時系列データの欠損値補完手法「MissNet」を提案しました。MissNetは、グラフィカルラッソにより推定した疎なネットワーク(変数間の関係性)の活用とネットワークの変化に基づいたセグメンテーションにより、高精度な欠損値補完と高い解釈性を実現した手法です。
会議期間中はイベントアプリWhovaを通じて参加者間の交流が図られました。私はランニングのコミュニティに参加し、参加者とビーチサイドで早朝ランを行い、海からの日の出を見ました。日本からの参加者のコミュニティも作成され、50人近くの方々と会場付近のバルで交流しました。美味しい料理を堪能しながら、他大学の研究者や企業の方々と研究や就職活動についてお話しできたいい機会でした。一方で、バルセロナは歴史的な建築と豊かな文化に彩られた美しい街ではありますが、私が耳にしただけでも会議参加者のうち3件のスリ被害・未遂が会場外で発生しており、安全面について不安を感じる場面もありました。
KDD’25はカナダのトロントで開催される予定です。また、次回からは投稿締切が8月と2月の2回に分かれることが決まっています。興味のある方は論文投稿および参加の検討をされてはいかがでしょうか。
著者紹介:
小幡紘平(大阪大学 産業科学研究所 櫻井・松原研究室)
2020年名古屋大学農学部応用生命化学科卒業。2023年大阪大学大学院情報科学研究科博士課程前期修了。大阪大学大学院情報科学研究科博士課程後期在学中。時系列データマイニングの研究に従事。
3.ECML PKDD 2024 参加報告
鈴木 浩史(富士通株式会社)
2024年9月9日から13日まで、リトアニアのビリニュスで開催された European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD 2024) に参加し発表を行ってきました。ECML PKDD は機械学習とデータマイニングに関する難関国際会議の一つであり、ICML および KDD の欧州版として位置付けられます。今年の Research Track では投稿件数826本に対して採択件数198本(採択率24%)でした。
EDML PKDD は、機械学習とデータマイニングという二つの大きな分野を両軸としているだけでなく、Applied Data Science Track により応用研究の間口を広げたり、Demo Track を取り入れたりしています。このため、発表の多様性が高いことが ECML PKDD の特色と言えるのではないかと思いました。発表者は口頭・ポスターの二つをこなす必要がある珍しい形式で準備が大変ですが、研究成果の広い宣伝と密な議論とを行えるのは有意義なのではないでしょうか。また、本会議の前後に併設ワークショップが40個ほど開催されており、終始にぎわいのある会議でした。
基調講演では Google DeepMind、マックス・プランク研究所、Spotify、ドルトムント工科大学、Stats Perform からの講演があり、ここでも発表の多様性がうかがえました。深層学習のデータ暗記と汎化性能との関係、現代におけるベンチマークへの問題提起、実サービスでユーザ体験を向上させた話、機械学習の省エネルギー化とその課題、スポーツ追跡データの利活用とその課題、に関して各1時間程度の講演が行われました。
ベストペーパーは “CAM-Based Methods Can See through Walls” というユニークなタイトルで、画像分類モデルに対する著名な説明法 Class Activation Map(CAM) が「モデルがまったく見ていなかった領域にもスコアを付けてしまう」ことを理論的にも実験的にも実証したものでした。これには、今まで信じられてきた説明法の大きな欠点を指摘したものとして、とても衝撃を受けました。このようなデファクト・スタンダードを疑問視する姿勢は研究者として大切にしていきたいものですね。
私の単著論文 “LayeredLiNGAM: A Practical and Fast Method for Learning a Linear Non-Gaussian Structural Equation Model” は Research Track に採択されたもので、統計的因果探索の代表的手法である DirectLiNGAM を高速化しました。LayeredLiNGAM という名の通り層が重要で、従来は変数の因果的順序を一変数ずつ逐次的に求めていたところを、タイブレークが起きる変数群をまとめた層の因果的順序を求めるように、理論的な動作保証を伴って改良しました。また、計算機実験では精度を維持しつつ高速化を達成しました。タイブレークがない場合が最悪ケースですが、このとき LayeredLiNGAM の動作は DirectLiNGAM に一致し、その他のケースでは高速化に寄与するので実用的です。
すでに来年の公式情報が出ており、ECML PKDD 2025 は2025年9月15日から19日の日程でポルトガルにて開催予定とのことです。ECML PKDD は機械学習とデータマイニングの二大分野から多様な発表が集まる国際会議です。会議全体の雰囲気はフランクで活気があります。開催地域が必ずヨーロッパであることも人によっては注目ポイントです。あと、常連の方いわく、毎回食べ物が美味しいらしいです(昼食やレセプションはもちろん、ポスターセッション中などもおいしい料理が提供されました)。興味のある方は、論文投稿や参加をぜひ検討してみてはいかがでしょうか。
著者紹介:
鈴木 浩史(富士通株式会社)
過去のNewsletterはこちらです。