日本データベース学会

日本データベース学会 Newsletter 2023年6月号 ( Vol. 16, No. 2 )

目次

    1. WWW 2023 参加報告
      Xiaotian Lu,佐藤 竜馬(京都大学)
    2. ECIR 2023 参加報告
      Adam Jatowt(University of Innsbruck),杉山 一成(大阪成蹊大学),細川 大至(京都大学)
    3. ICDE 2023 参加報告
      木村 元紀(東京大学)

    本号では WWW 2023,ECIR 2023,ICDE 2023 の3件の国際会議の参加報告をご寄稿いただきました.それぞれの会議の様子,採択論文の傾向,招待講演の内容,ご自身が発表された研究内容などのご紹介となります.最難関会議採択や Best Paper Award 受賞された皆様の生の声となります.ぜひご覧いただき,参考としていただければと存じます.

    本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容についてのご意見がございましたらnews-com[at]dbsj.orgまでお寄せください.

    DBSJ Newsletter 編集委員会(担当編集委員 村上 直)


    1.WWW 2023 参加報告

    Xiaotian Lu,佐藤 竜馬(京都大学)

    (1) WWW2023 について(Lu)

    Topics of the conference is comprehensive and accepted a wide range of web-related research. There are 11 research tracks in total, and the research topics of different tracks are quite different. The largest track is “Social Network Analysis and Graph Algorithms” with 71 accepted papers, and the smallest track is “Crowdsourcing and Human Computation” with only 7 accepted papers (including mine). The acceptance rate of all tracks is around 20%, and there is no obvious difference in difficulty. AI-related research is the most popular field at the conference. In addition to AI research, there are also social science-related research, such as social surveys, economics and other research that have nothing to do with AI.

    Among the countries that submitted papers, China was the most submitted 948 papers, followed by the United States with 415 submissions, and all other countries had less than 100 submissions. All research track papers are oral presentation, and most papers are 7 minutes for speech + 3 minutes for questions. Approximately 10% of papers will be selected for Spotlight, with about 20 minutes for the presentation.

    (2) 研究紹介 Multiview Representation Learning from Crowdsourced Triplet
    Comparisons(Lu)

    Our paper is:
    Xiaotian Lu, Jiyi Li, Koh Takeuchi, Koh Takeuchi, Hisashi Kashima.
    Multiview Representation Learning from Crowdsourced Triplet Comparisons.

    accepted for the “Crowdsourcing and Human Computation” track. Crowdsourcing is an efficient and economical approach to applying human intelligence, for example, collecting label annotations. However, collecting labels can become difficult in some cases. For example, fine-grained classification datasets such as the Stanford dog breeds. We can change the task of asking about the category to asking about the similarity. Triplet similarity tasks ask crowd workers to answer the following question, i.e., “Which two objects among A, B, and C are more similar?”. Triplet similarity lead to a new problem and it is our motivation. An object may have multiple attributes. Humans would thus naturally compare them differently in terms of different attributes. In this study, we refer to these characteristics as ” multiview”. In this research, we add multiple branches to the neural network, in which each branch corresponds to a view and allow different workers to choose different views for different tasks.

    It is my pleasure to present our research at the Web Conference. Our paper was once rejected by AAAI 2023 before submission. After seeing that the Web Conference has a specific crowdsourcing track, we chose to submit to the Web Conference.

    (3) 研究紹介 Active Learning from the Web(佐藤)

    機械学習用のデータを集めるのは大変です.私は今回の WWW にて,ウェブから有用な機械学習用のデータを自動で集めてくる技術を発表しました.提案法の中核にあるのは能動学習とユーザーサイドの検索アルゴリズムです.能動学習は,ラベルなしのデータ集合の中からラベルを付けるべきデータを選択して学習する技術です.従来の能動学習では,ラベルなしデータは所与と仮定していましたが,大規模なラベルなしデータを自前で構築するのは大変です.そこで,提案法はウェブ全体を巨大なラベルなしデータ集合とみなして能動学習を適用します.しかし,こうすると集合があまりにも大きいので探索が困難になります.そこで,提案法はユーザーサイドの検索アルゴリズムを活用します.ユーザーサイドの検索アルゴリズムとは,ユーザーが指定した任意の関数 f(x) について,f(x) を最大にするデータ x を外部のウェブサービスから取得する技術です.従来は,f(x) として検索クエリとの関連度スコア関数を用いて,ユーザー独自のスコア関数で検索システムを実現するためにこの技術は用いられていました.提案法では f(x) として能動学習の獲得関数を用いることで,機械学習の有用度という点で良いデータを自動で集めます.実験では実世界のウェブ環境で 100 億ものデータの中から有用なデータを自動で取得できることを示しました.

    コードと論文は公開されているのでぜひご一読ください.
    コード:https://github.com/joisino/seafaring
    論文:https://arxiv.org/abs/2210.08205

    著者紹介:
    Xiaotian Lu(京都大学)
    I was born in Shanghai, China. After graduated from Shanghai Ocean University, I came to Kyoto University for the master program in 2020. Then I got master’s degree in 2022 and became a Ph.D. student at Kyoto University. From April 2023, I was selected as the JSPS Research Fellowship for Young Scientist (DC2). My research interest is crowdsourcing and applications of large language models.

    佐藤 竜馬(京都大学)
    1996年生まれ.2021年京都大学大学院情報学研究科修士課程修了.現在,京都大学大学院情報学研究科博士後期課程在籍中.専門分野は最適輸送,グラフニューラルネットワーク,および情報検索・推薦システム.NeurIPSやICMLなどの国際会議に主著論文が採択.競技プログラミングでは国際情報オリンピック日本代表,ACM-ICPC世界大会出場,AtCoderレッドコーダーなどの戦績をもつ.PDF翻訳サービスReadableの開発など研究の効率化についても従事している.


    2.ECIR 2023 参加報告

    Adam Jatowt(University of Innsbruck),杉山 一成(大阪成蹊大学),細川 大至(京都大学)

    (1) ECIR 2023 report
    The 45th European Conference on Information Retrieval (ECIR) took place in Dublin, Ireland from 2nd to 6th April, 2023.

    In total, 489 papers were submitted to the different tracks. The final program included 65 full papers (29% acceptance rate), 41 short papers (27% acceptance rate), 19 demonstration papers (66% acceptance rate), as well as 12 reproducibility papers (63% acceptance rate), 10 doctoral consortium papers (56% acceptance rate), and 13 invited CLEF papers.

    The keynote talks in this year were given by Mounia Lalmas (Spotify), Tetsuya Sakai (Waseda University), and the winner of the BCS IRSG Karen Sparck Jones Award in 2023, Yang Wang (University of California, Santa Barbara). There were also 8 workshops and 7 tutorials provided.

    The best paper award was given to our paper titled “Temporal Natural Language Inference: Evidence-based Evaluation of Temporal Text Validity” (by Taishi Hosokawa, Adam Jatowt, and Kazunari Sugiyama). The conference this year was quite large with several hundred participants. Fortunately, the weather was sunny most of the time, which is not always the case in Ireland.Dublin is quite a lively city with lots of entertainment places, and a strong whisky and beer (Guinness) drinking culture.

    The next ECIR conference will be held in Glasgow, Scotland with Graham McDonald, Craig Macdonald and Iadh Ounis (all from University of Glasgow) as General Chairs.

    (2) ECIR 2023 Best Paper Award 受賞論文
    Taishi Hosokawa, Adam Jatowt, and Kazunari Sugiyama:”Temporal Natural Language Inference: Evidence-based Evaluation of Temporal Text Validity” の紹介

    上記の “(1) ECIR 2023 report” で述べたように,ECIR 2023において,我々は,
    “Temporal Natural Language Inference: Evidence-based Evaluation of Temporal Text Validity”
    (「時制的な自然言語推論:証拠に基づいた時制テキストの有効性評価」)
    という論文を発表し,幸いなことに,Best Paper Award を受賞することができた.以下,本研究の概要を紹介する.

    本研究では,与えられた一つ目の文が,その文に続く二つ目の文を受けて,時間的に有効であるか否かを判断する手法について,外部の知識ベースからの情報を学習することによって,人間にとっては容易である時制的な常識的知識を,コンピュータが得るための機械学習モデルを提案している.

    例えば,一つ目の文として,次の文が与えられたとする.
    “I am taking a walk.”

    この文に続く二つ目の文が,
    “I am getting coffee to go.”
    であれば,コーヒーショップに向かって歩いていると判断できるので「時間的に有効」となる.

    一方,二つ目の文が,
    “I am preparing dinner.”
    であれば,歩いている状況から,台所で料理をしている状況に変化しているので,「時間的に無効」となる.

    本研究は,ツイートなどのマイクロブログから,より有用な投稿のみをフィルタリングしたり,チャットボットにおいて,会話が変化した際に,そのユーザの状況を的確にとらえて返答するといった場面で応用できる.

    論文については,次のURLを参照されたい.
    https://link.springer.com/chapter/10.1007/978-3-031-28244-7_28

    著者紹介:
    Adam Jatowt(University of Innsbruck)
    Dr. Adam Jatowt is Full Professor at the Department of Computer Science and Digital Science Center at the University of Innsbruck, Austria. He received his Ph.D. in Information Science and Technology from the University of Tokyo, Japan in 2005, and then later worked at Kyoto University as Assistant and Associate Professor until 2021. His research interests lie in the area of information retrieval, knowledge extraction from text, digital humanities, and digital history. He is on the editorial board of computer science and digital library related journals: IP&M, JASIST, IJDL, JIIS, and IEEE JSC journals. Adam is the recipient of the Friedrich Wilhelm Bessel Research Award by Humboldt Society and the Karlsruhe Institute of Technology’s (KIT) International Excellence Award.

    杉山 一成(大阪成蹊大学)
    2004年3月 奈良先端科学技術大学院大学 博士後期課程修了.博士(工学).民間企業勤務,東京工業大学 研究員,シンガポール国立大学 研究員(うち,5か月間,ペンシルバニア州立大学 訪問研究員),京都大学 特定准教授を経て,2023年4月より,大阪成蹊大学 データサイエンス学部 教授,現在に至る.情報検索,自然言語処理,電子図書館に関する研究に従事.同分野の国際会議,JCDL 2013, CIKM 2020, ECIR 2023 において,”Best Paper Award” の受賞歴を,また,SIGIR 2017, EMNLP 2020, WSDM 2021の査読において,”Outstanding Reviewer” としての表彰歴を有する.情報処理学会,日本データベース学会,ACM (Association for Computing Machinery) 各会員.

    細川 大至(京都大学)
    2020年3月 神戸大学 工学部 情報知能工学科学科 卒業.自然言語処理を用いたバイオインフォマティクスに関する研究に従事.2022年3月 京都大学 情報学研究科 社会情報学専攻 修士課程 修了.情報検索と自然言語処理に関する研究に従事.現在に至る.


    3.ICDE 2023 参加報告

    木村 元紀(東京大学)

    2023年4月3日から7日までアメリカ合衆国カリフォルニア州アナハイムにて開催されたデータ工学に関する国際会議The 39th IEEE International Conference on Data Engineering (ICDE 2023) に参加しました.ICDEはSIGMODやVLDBと並ぶデータベース分野の三大国際会議として知られています.他の国際会議同様に,ICDEも一昨年や昨年はCOVID-19の影響により完全オンライン開催だったのですが,今年からは現地とオンラインのハイブリッド開催であり,現地では発表以外の場でも活発に議論が行われていました.私は今回が初めての国際会議への参加だったのですが,有意義な時間を過ごすことができました.

    今回のICDEでは,Research Trachで229本,Industry Trackで47本,さらに今年より新設されたSpecial Trackで10本の合計286本の論文が発表されました.Special Trackは,データベース分野の発展を受けて新たに設けられた,将来のデータシステムが直面する課題やデータ管理技術の新しい使用例や応用についての展望を述べた論文を対象としたトラックです.傾向としては,Research Trackではグラフを扱った論文が,Industry Trackではグラフや学習系の論文が,Special Trackではクエリや学習,データベースシステムに関する論文が多いようです.

    Special Trackのセッションの時は他のセッションは開催されず,ほぼ全参加者が一つの会場に集まっていました.このセッションでは最初に論文紹介をした後,著者らによるパネルディスカッションが行われ,それぞれの研究内容やデータベース分野の今後の展望についての白熱した議論が行われていました.彼らの議論を聞いて,私自身の研究のモチベーションも上がり,非常に良い機会を得られたと思います.

    私自身はResearch Trackにて「Efficient Parallel Mining of High-utility Itemsets on Multicore Processors」というタイトルの論文を紹介しました.本研究では,High-utility Itemset Miningという近年注目されているデータマイニング手法について,マイニングプロセスを実行時に細粒度分割するとともに,計算機の物理構成を考慮してCPUやメモリの割り当てを調整する手法を提案し,実験により大幅な高速化を確認しました.口頭発表とポスター発表を行い,多くの人と有意義な議論をすることができました.

    久々の現地開催となったICDEに参加し,数多くの研究者と対面で議論をすることができ,とてもモチベーションを高めることができました.次回のICDE 2024はオランダ・ユトレヒト州で開催される予定です.興味のある方は論文投稿や参加を検討されてはいかがでしょうか.

    著者紹介:
    木村元紀(東京大学大学院情報理工学系研究科電子情報学専攻 合田研究室)
    東京大学博士後期課程一年生.データマイニングやデータベースシステムの高性能化に関する研究に取り組んでいる.


    過去のNewsletterはこちらです。