日本データベース学会

dbjapanメーリングリストアーカイブ(2017年)

[dbjapan] NTCIR-13 MedWeb 参加募集(締切:2017年3月31日) (NTCIR-13 MedWeb: Call for Task Participation)

  • To: dbjapan [at] dbsj.org
  • Subject: [dbjapan] NTCIR-13 MedWeb 参加募集(締切:2017年3月31日) (NTCIR-13 MedWeb: Call for Task Participation)
  • From: Shoko Wakamiya <wakamiya [at] is.naist.jp>
  • Date: Wed, 4 Jan 2017 18:17:28 +0900

日本データベース学会の皆様,
(重複して受け取られた場合にはご容赦ください)

新年明けましておめでとうございます.

奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室の若宮と申します.
NTCIR-13 MedWeb (Medical Natural Language Processing for Web Document) への参加案内をお送りさせていただきます.
MedWebは,病気・症状に関するツイートデータや患者によるブログデータを用いて,言語処理の課題に取り組んでいただくタスクです.

登録締切は【2017年3月31日】となっております.
ぜひともご参加をご検討くださいますよう,よろしくお願い申し上げます.


============================================
NTCIR-13 MedWeb  参加者募集
~ 医療分野の言語処理シェアードタスク ~
============================================

NTCIR MedWebは,シェアードタスク形式のワークショップです.
参加者は,病気・症状に関するツイートデータや患者によるブログデータを用いて,言語処理の課題に挑みます.

■ ホームページ


■ スケジュール
 参加登録締切 2017年3月31日 (P)
 ガイドライン公開 2017年4月3日 (O)
 学習用データセット配布 2017年5月1日 (O)
 Dry Run 2017年5月1日-7月24日 (P)
 テスト用データセット配布 2017年7月24日 (O)
 Formal Run 2017年7月24日-8月7日 (P)
 結果の提出 2017年8月7日 (P)
 評価結果の発表 2017年9月4日 (O)
 タスク概要論文一部公開 2017年9月18日 (O)
 タスク参加者論文(ドラフト) 提出締切 2017年9月25日 (P)
 論文チェックと結果の送信 2017年10月9日 (O)
 タスク参加者論文・タスク概要論文 提出最終締切 2017年11月1日 (P)(O)
 NTCIR-13会議 @ NII 2017年12月5-8日 (P)(O)

(P):タスク参加者のスケジュール
(O):タスクオーガナイザのスケジュール


■ 参加方法
 以下のリンクから参加登録をしてください.


■ 概要
 近年,多くの医療記録がこれまでの紙の媒体に代わり,電子媒体の形式で作成されるようになっており,医療分野でのデジタル情報処理の重要性が増しています.さらに,このトレンドは医療者によって作成される電子カルテだけでなく,患者による様々なテキスト,マイクロブログテキストやブログテキストなど,にも広がっています.
 NTCIR-13 MedWeb (Medical Natural Language Processing for Web Document) タスクでは,患者によるテキストを用いて言語処理の課題に挑みます.(1)Twitter サブタスクと(2)Blog サブタスクの2つからなります.これらは,(1)病気や症状に関するテキストの二値分類タスクと(2)患者によるテキストにおいて個人情報,患者の愁訴表現,日時情報を特定し,これらにタグを付与して出力するタスクです.MedWebタスクで得られる成果により,ソーシャルメディアにおける患者らの声を有効に活用し,医療をサポートする実用的なシステムを生み出すことを目指しています.


■ タスク
 次の2種類のサブタスクを設定しています(両方に参加可能です.)
 (1) Twitterサブタスク(日本語,英語,中国語)
 特定の病気あるいは症状に関するツイートテキストを入力とし,病気あるいは症状に罹患しているユーザ(あるいは身近にいる人)による発言か否かを分類する2値分類タスクです.
 (2) Blogサブタスク(日本語)
 患者によるブログテキストを入力とし,3種類のタグ(個人情報タグ,患者の愁訴表現タグ,日時情報タグ)を付与したテキストを出力するタスクです.


■ データセット
 (1) Twitterサブタスク(日本語,英語,中国語)
 病気または症状に関連する模擬ツイートデータが配布されます.
 8つの病気または症状(インフルエンザ,下痢/腹痛,花粉症,咳/喉の痛み,頭痛,熱,鼻水/鼻づまり,風邪)を対象としています.
 ・日本語:2,560 発言を予定
 ・英語:1,000 発言を予定
 ・中国語:1,000 発言を予定
 なお,Twitterから収集したツイートデータの再配布は禁止されているため,クラウドソーシングにより作成した模擬ツイートデータ(日本語)のコーパスを提供します.
 また,作成した模擬ツイートデータの一部を英語と中国語に翻訳した英語と中国語のコーパスを提供します.

 (2) Blogサブタスク(日本語)
 患者によるブログデータ(110文章を予定)が配布されます.
 11名の患者(主にがん患者)の10日分の闘病記ブログデータからなります.


■ 運営組織
オーガナイザー
 荒牧 英治(奈良先端科学技術大学院大学)
 若宮 翔子(奈良先端科学技術大学院大学)
 森田 瑞樹(岡山大学)
 狩野 芳伸(静岡大学)
 大熊 智子(富士ゼロックス)

アドバイザ
 増市 博 (富士ゼロックス)

スポンサー
 奈良先端科学技術大学院大学


ご質問・お問い合わせは MedWeb事務局 <medweb [at] is.naist.jp> にお願いします.



============================================
  NTCIR-13 MedWeb Call for Task Participation
  (Registration deadline: Mar 31, 2017)
============================================

■ HP



■ Schedule 

Mar 31, 2017: Task registration Deadline (P)
Apr 3, 2017: Annotation guideline distribution (O)
May 1, 2017: Training corpus distribution (O)
May 1-Jul 24, 2017: Dry run (P)
Jul 24 2017: Test data distribution (O)
Jul 24-Aug 7, 2017: Formal run (P)
Aug 7, 2017: Run result submission due date (P)
Sep 4, 2017: Evaluation result release (O)
Sep 18, 2017: Early draft task overview release (O)
Sep 25, 2017: Task participant paper (draft) submission due date (P)
Oct 9, 2017: Paper check and notification (O)
Nov 1, 2017: Task participant paper (camera-ready) submission due date (P)
Dec 5-8, 2017: NTCIR-13 Conference @ NII, Tokyo, Japan (P)(O)


(P) and (O) indicate dates that should be done by participants and organizers, respectively. 

■ Participation

1. Take a look at "How to Participate to NTCIR-13 Task(s)"

2. Register through online registration


■ Summary

Recently, an increasing number of medical records is being stored in the form of electronic media instead of paper media -- making digital information processing in fields more and more necessary. Nowadays, this trend in information processing focuses not only on electronic health records but also on various data coming from patients. This data we call patient texts include social media texts, web blogs, and so on. 

NTCIR-13 MedWeb (Medical Natural Language Processing for Web Document) task provides two different types of texts: Twitter message texts (in Japanese, English, and Chinese) and disease journal texts (in Japanese), and then requires to classify them or extract disease information from them. In detail, MedWeb consists of two subtasks: (1) Twitter subtask (in Japanese, English, and Chinese) and (2) Blog subtask (in Japanese). Since these subtask settings can be formalized as (1) binary-classification of disease/symptom-related texts and (2) medical codes labeling to disease or symptom names in patients’ texts, the achievements of this task can almost be directly applied to a fundamental engine for actual applications. 


■ Task

(1) Twitter subtask - ja, en, ch
This subtask requires participants to classify a given tweet into two categories: patient or not. The input are tweets data while the output are tweets tagged 1 (patient) or 0 (not). In this subtask, the target diseases/symptoms are not limited to influenza only since this also deals with other 7 diseases/symptoms including diarrhea/stomachache, hay fever, cough/sore throat, headache, fever, runny nose, and cold. These targets are designed based on the advice of a Japanese government research center (National Institute of Infectious Diseases (NIID)). The detailed definition of individual targets is explained in the annotation guideline (available at the website [doi: 10.6084/m9.figshare.3123160.v1]).

(2) Blog subtask - ja
In this subtask, participants are challenged to extract disease expressions (complaints) from a given cancer patient article. In detail, the input is a set of 110 blog articles (=10 actual patients x 11 days’ articles). The output are tagged Japanese texts. The tag is three folds: for privacy information, for complains, and for DateTime.

■ Dataset

Participants can obtain the following data:

(1) Twitter subtask - ja, en, ch
-Japanese: 2,560 Japanese tweets related to 8 diseases/symptoms (generated by crowdsourcing)
-English: 1,000 English tweets related to 8 diseases/symptoms (translated from Japanese)
-Chinese: 1,000 Chinese tweets related to 8 diseases/symptoms (translated from Japanese)

The 8 diseases/symptoms include influenza, diarrhea/stomachache, hay fever, cough/sore throat, headache, fever, runny nose, and cold. Note that tweets data crawled using Twitter API is not allowed to release due to the Twitter’s developer policy concerning data redistribution. Therefore, we are planning to collect quasi-tweets (in Japanese) for 8 diseases/symptoms by means of a crowdsourcing. We also generate English and Chinese corpus by translating a part of quasi-tweets from Japanese into English and Chinese.

(2) Blog subtask - ja
-Japanese: 110 Japanese blog articles (10 days’ articles by 11 patients)


■ Organizers

NTCIR-13 MedWeb organizers:
ARAMAKI Eiji (Nara Institute of Science and Technology)
WAKAMIYA Shoko (Nara Institute of Science and Technology)
MORITA Mizuki (The University of Okayama)
KANO Yoshinobu (Shizuoka University)
OHKUMA Tomoko (Fuji Xerox)

Advisor:
MASUICHI Hiroshi (Fuji Xerox)

Sponsorship: 
Nara Institute of Science and Technology

■ Contact



We are looking forward to your participation!



--
若宮 翔子
奈良先端科学技術大学院大学 研究推進機構
ソーシャル・コンピューティング研究室 博士研究員
Email: wakamiya [at] is.naist.jp TEL: 0743-72-6065

Shoko Wakamiya
Postdoctoral researcher, Social Computing Lab., 
Institute for Research Initiatives, 
Nara Institute of Science and Technology (NAIST), Japan
Email: wakamiya [at] is.naist.jp TEL: +81-743-72-6065