日本データベース学会

dbjapanメーリングリストアーカイブ(2015年)

[dbjapan] NTCIR Short Text Conversation (STC) 日本語タスク 参加募集(登録〆切:2016/1/15)


※重複して受け取られた場合はご容赦下さい

関連研究者の皆様,

NTTの東中です.

NTCIR における対話システムに関するタスクのお知らせです.ご興味ありましたら是非エ
ントリください.多数の参加登録をお待ちしております.

=============================================================
■NTCIR Short Text Conversation (STC) 日本語タスクのお知らせ
(* English version will follow)

この度,NTCIR にて,Short Text Conversation (STC) 日本語タスクを実施することにな
りましたので,参加者募集のご案内をさせていただきます.情報検索,対話システム,自
然言語処理に関わる皆様にぜひご参加いただければと思います.

NTCIR STC URL: http://ntcir12.noahlab.com.hk/stc.htm

■タスク概要

本タスクは,入力ツイートに対して,所定のツイート群から,対話システムの出力として
ふさわしいツイートを抽出するタスクです.

たとえば,「こんにちは」には「こんにちは」と挨拶を返したり,「疲れたよ」には「元
気出して!」「最近お疲れみたいですね」といった相手に寄り添う発言をしたり,「温泉
に行きたいな」には「道後温泉がお勧めですよ」「○○温泉は泉質もよくってもう一度行
きたいです」といった相手の役に立つ発言を抽出するといったことを目指します.広範な
話題を持つツイッターから,対話システムの発話として相応しい発言が抽出できれば,対
話システムの発話能力は飛躍的に高まると考えられます.

なお,日本語タスクでは Twitter のデータを用いますが,中国語タスクでは Weibo を用
いています.中国語タスクの詳細は http://ntcir12.noahlab.com.hk/stc.htm をご覧くだ
さい.

■評価方法

抽出されたツイートについて,人手による主観評価を行います.評価はオーガナイザ側が
行います.主観評価は,0(応答として適合しない), 1(文脈により適合する), 2(適合
する)の3段階のラベルを複数人でラベル付けし,適合するツイートの割合や情報検索の評
価尺度によって評価します.

■データについて

入力対象となるデータは,ランダムにサンプリングされたツイートデータです.2015年の
ツイートデータからランダムサンプリングされたものです.

抽出対象となるデータは,入力対象となるデータとは異なる期間のツイートペア集合(約
100万ツイート)です.これらは,2014年のツイートからランダムに抽出されたものです.

オーガナイザからは,以下のデータを配布します.
・抽出対象ツイートデータ:応答ツイートを抽出する元となるデータ(約100万ツイート)
・開発用データ:ベースライン手法によって抽出されたツイートに対する主観評価値
(各ツイート10名により評価されたものです)

これらは,データ配布サイト https://github.com/mynlp/stc にて公開します.

フォーマルラン時には,別途テストデータを配布します.

ツイートデータは,全てツイートID(id_str)として配布されます.ツイートの本文は参加
者各自にクロールいただくことになりますが,NTTデータ社から一括して購入することも可
能です.

本データを購入されたい方はNTTデータ社 ソーシャルビジネス推進室森様に「NTCIR STC
日本語タスク用データセット」購入のご連絡をお願いします.購入のためのメールアドレ
スは info<at>nazuki-oto.com です.

■参加方法

NTCIR の公式サイトから参加登録をお願いします.
こちらに入力された連絡先アドレスに対して,テストデータ配布等の連絡を行います.
http://ntcir.nii.ac.jp/jp/NTCIR12Regist/
(参加登録は下記〆切まで随時受け付けています)

■スケジュール

検索対象ツイートデータ配布:配布中
開発用ラベル付きデータ配布:11/20
参加登録〆切:2016/1/15
テストデータ配布:2/15
フォーマルラン〆切:2/22
評価結果配布:3/10
論文第一稿〆切:3/20
カメラレディ論文締切:5/1
NTCIR12カンファレンス:6/7-6/10

■お問い合わせ先

日本語タスクについては下記までお願いします.

日本語タスクオーガナイザ
・東中竜一郎(higashinaka.ryuichiro<at>lab.ntt.co.jp)
・宮尾祐介(yusuke<at>nii.ac.jp)

NTCIR STC 全体にかかわるお問い合わせについては以下までお願いします.

・STCメーリングリスト(ntcirstc-organizer<at>yahoogroups.com)

本メーリングリストにはオーガナイザ全員(以下)が含まれます.

Hang Li, Noah's Ark Lab, Huawei, Hong Kong
Tetsuya Sakai, Waseda University, Japan
Zhengdong Lu, Noah's Ark Lab, Huawei, Hong Kong
Lifeng Shang, Noah's Ark Lab, Huawei, Hong Kong
Yusuke Miyao, National Institute of Informatics, Japan
Ryuichiro Higashinaka, Nippon Telegraph and Telephone Corporation, Japan

=============================================================
Call for participation: NTCIR Short Text Conversation (STC) Japanese task
 
This is a call for participation for the NTCIR Short Text Conversation (STC)
Japanese task. We ask those who are working in the field of information
retrieval, dialogue systems, and natural language processing in general to
participate in the task.
 
*Task description
 
Given an input tweet, the task is to retrieve, from a pool of tweets, tweets
that are suitable as responses for a dialogue system. Since Twitter contains
utterances on a wide variety of topics, if we can extract reasonable tweets as
responses, it will lead to the improvement in the language generation capability
of dialogue systems.
 
Note that, in the Japanese task, Twitter is used; however, in the Chinese task,
Weibo is used. See http://ntcir12.noahlab.com.hk/stc.htm for the details of the
Chinese task.
 
*Evaluation
 
The extracted tweets will be evaluated by human judges. The evaluation is done
by the organizers. In the evaluation process, each extracted tweet is labeled
with 0 (inappropriate), 1 (appropriate in some context), and 2 (appropriate) by
multiple judges. The rate of appropriate answers and information retrieval (IR)
related measures (graded relevance IR measures) will be used as evaluation
metrics.
 
*Data
 
The input data will be those randomly sampled from tweets in the year 2015. The
pool of tweets (the target for extraction) is the randomly sampled tweet pairs
(mention-reply pairs) in the year 2014. The size of the pool is just over one
million; that is 500K pairs.
 
The following data will be provided from the organizers:
(1) Twitter data (by using their IDs) 1M in size
(2) Development data. Input samples and output samples annotated with reference
labels. Here, the number of annotators is ten.
 
The data can be downloaded from https://github.com/mynlp/stc and the test data
will be provided at the time of the formal run.
 
Since the Twitter data are provided in the form of IDs, it will be necessary for
the participants to crawl the data by themselves. Alternatively, the
participants can purchase the data from NTT DATA Corporation. For those who
want to purchase the data, please send an email to info<at>nazuki-oto.com,
requesting the data for the NTCIR STC Japanese task.
 
* How to participate
 
Please register from the NTCIR official website: 
http://ntcir.nii.ac.jp/jp/NTCIR12Regist/
We will inform the participants of any update by using the registered contact
addresses.
 
* Schedule
 
- Release of the Twitter data: done
- Release of the development data: 11/20
- Registration deadline: 2016/1/15
- Release of the test data:  2/15
- Formal run deadline: 2/22
- Distribution of evaluation results: 3/10
- Paper draft deadline: 3/20
- (brief review of the draft papers)
- Camera ready deadline: 5/1
- NTCIR12 conference: 6/7-6/10
 
* Contact
 
Regarding the Japanese task, please contact the organizers of the Japanese task.
- Ryuichiro Higashinaka (higashinaka.ryuichiro<at>lab.ntt.co.jp)
- Yusuke Miyao (yusuke<at>nii.ac.jp)
 
For general inquiries related to NTCIR STC, please send an email to
- STC mailing list (ntcirstc-organizer<at>yahoogroups.com)

The mailing list includes all the organizers:

Hang Li, Noah's Ark Lab, Huawei, Hong Kong
Tetsuya Sakai, Waseda University, Japan
Zhengdong Lu, Noah's Ark Lab, Huawei, Hong Kong
Lifeng Shang, Noah's Ark Lab, Huawei, Hong Kong
Yusuke Miyao, National Institute of Informatics, Japan
Ryuichiro Higashinaka, Nippon Telegraph and Telephone Corporation, Japan

-- 
Ryuichiro Higashinaka
NTT Media Intelligence Laboratories. NTT Corp. 
1-1 Hikarinooka, Yokosuka, 239-0847 Japan.
phone: +81-46-859-2027 fax: +81-46-855-1054