日本データベース学会

dbjapanメーリングリストアーカイブ(2017年)

[dbjapan] 【再送】情報処理学会 第233回自然言語処理研究会 参加募集(10/24, 25@宮古島)


日本データベース学会の皆様、

(重複して受け取られた場合にはご容赦ください)
NL研の木村です。
申し訳ございませんが、先程同様のメールをお送りしたのですが、一部ミス(論文のサマリの記載ミス)の記載がございましたので、再送させていただきます。

--- ここから ---

お世話になっております。NL研幹事の木村です。
10/24(火)、25(水)に宮古島で開催されます第233回自然言語処理研究会の参加募集をお送りします。
皆様のご参加を心よりお待ちしております!
懇親会の申込締切が10月15日(日)までです。
こちらもぜひご参加ください。

============================
情報処理学会 第233回自然言語処理研究会 参加募集

開催概要

●日程:2017年10月24日(火)25日(水)
●会場:宮古島市中央公民館
〒906-0013 沖縄県宮古島市平良下里315
●交通アクセス:
宮古空港からタクシーで約10分
(宮古島空港の便)
— 行きの便 —
◆羽田空港から宮古空港の便(約3時間)
JTA 06:10 – 09:00
JTA 06:40 – 09:30
ANA 11:55 – 14:55
◆関西空港から宮古空港の便(約2時間)
ANA 07:50 – 10:15

— 帰りの便 —
◆宮古空港から羽田空港の便
JTA 19:45 – 22:25
ANA 15:40 – 18:15
◆宮古空港から関西空港の便
ANA 12:35 – 14:45
※上記の時刻表は2017年7月時点での状態なので正確なものは以下のURLからご確認ください

●注意事項:
・台風や強風時など悪天候により、飛行機が飛ばない場合やむを得ず研究会を中止する場合がありますのでご了承ください.
・中止の場合は、研究会ホームページ(https://nl-ipsj.or.jp/)にて前日までに報告し、発表者の皆様にはメールでご連絡します.
============================
懇親会

当日は懇親会を予定しておりますので、ぜひご参加ください。
※下記「事前申込」から申し込みをお願いします。

・日時:2017年10月24日(火)18時30分〜
・会場:未定(ホテルが多い宮古島市役所で検討しています)
・申込締切:2017年10月15日(日)
・会費:4,000円前後(予定)

============================
照会先

●研究会に関する問い合わせ先:
NL研及び会場に関する照会先: 木村 俊也(株式会社メルカリ)
E-mail: kimura.shunya (at) gmail.com

============================
プログラム(発表件数19件)

10月24日(火)10:30-18:30
[10:30-12:00] 機械翻訳(1) [3件]
[12:00-13:00] 昼食休憩
[13:00-14:00] 招待講演 [1件]
[14:00-14:10] 休憩
[14:10-16:10] コーパス・言語資源 [4件]
[16:10-16:25] 休憩
[16:25-17:55] 機械翻訳(2) [3件]
[18:30-21:00] 懇親会

10月25日(水)9:30-14:45
[09:30-11:30] 言語処理基礎 [4件]
[11:30-12:30] 昼食休憩
[12:30-14:30] 言語処理応用 [4件]
[14:30-14:45] クロージング

10月24日(火)10:30-18:30

[10:30-12:00] 機械翻訳(1) [3件]

座長:

(1)  ニューラル機械翻訳におけるembedding layerの教師なし初期化

根石 将人, 佐久間 仁, 遠田 哲史, 石渡 祥之助, 吉永 直樹, 豊田 正史 (東大)

大規模なニューラルネットワークの最適化では、広大な探索範囲とその非凸性により、得られる局所最適解の質
とその収束速度は各パラメータの初期値に強く依存する。 本研究では、Encoder-decoderモデルを利用した機械
翻訳において、より良い局所最適解と学習の収束の高速化を目的とし、 翻訳システム内の単語を単語埋め込みに
変換する埋め込み層の低コストな初期化方法を提案する。 初期化対象のパラメータとしては、埋め込み層、隠れ
層、出力層が考えられるが、埋め込み層には、言語モデルなど教師無しで高速に単語埋め込みを学習可能な手法
が多く存在する。そこで提案手法では、言語モデルにより当該タスクコーパスのみで低コストに事前学習した単
語埋め込みを用いてニューラル機械翻訳の埋め込み層の初期化を行う。実験では、ASPEC英日翻訳タスクの評価
データを用いて、初期化のための単語埋め込みの学習データの種類(一般ドメイン、翻訳タスクの学習データ)、
学習手法(SGNS, CBOW, GloVe)、初期化する対象の埋め込み層 (Encoder, Decoder)、初期化後の更新の有無な
どを変えて、モデルの収束速度と翻訳精度の観点で初期化の効果を検証する。

(2)  事前学習と汎化タグによる方言翻訳の精度向上

長谷川 駿 (東工大), 田中 駿, 山本 悠二 (サイバーエージェント), 高村 大也, 奥村 学 (東工大)

標準語の文を方言に翻訳する方言翻訳では,大規模な対訳データを用意することが困難であるため単一言語デー
タによる事前学習が欠かせない.しかし,多くの生成タスクで高い精度を上げているAttention付きEncoder-
Decoderモデルの事前学習として入力列と参照列が同一であるAutoEncoderを用いると,入力単語を順に注目し
その単語を出力することで参照列を予測可能なため,方言としての正しい単語の並びが学習されづらいという問
題点がある.そこで本研究では,内容語のみから参照文を予測するよう事前学習を行うことでこの問題の解決を
図る.さらに,汎化タグを用いてデータの抽象化を行うことでデータの複雑さを軽減し,方言翻訳モデルの精度
向上を目指す.

(3) サブワードユニットを用いたニューラル機械翻訳における形態素情報の効果

中村 尚道, 井佐原 均 (豊橋技科大)

深層学習は自然言語処理などの様々な分野において、それまでの研究を上回る成果を出している。機械翻訳分野
においても、既存の統計的機械翻訳より高い性能を得られることが報告されている。しかしながら、ニューラル
機械翻訳は大量のコーパスと高い計算コストを必要とする。計算コストを削減するために、既存研究では語彙内
の低頻度な語句を記号やタグなどに置換する手法が主に用いられている。しかしながら、この手法は文の意味を
曖昧にし、翻訳の性能を低下させることも報告されている。この問題を解決するためにバイト対符号化や
Wordpiece Modelなどの手法を用いたサブワードユニットが提案されている。これらの手法は予め指定された語
彙数から語彙を作成できるため、意味を曖昧にすることなく文を分割することができる。また、これらの手法は
文を意味を持たないトークンに分解するため、入力列はトークンの集合となる。これはニューラル機械翻訳と相
性が良く、翻訳精度を向上させることが報告されている。この結果から、ニューラル機械翻訳において言語学的
な情報は必ずしも必要では無いとも考えられるが、我々はサブワードユニットに対して形態素情報を付与するこ
とで、翻訳精度が向上することを示した。サブワードユニットに対しても言語学的な情報が有用といえる。

[12:00-13:00] 昼食休憩

[13:00-14:00] 招待講演 [1件]

座長:

(4) 語学学習支援のための言語処理入門

永田 亮 (甲南大学/理化学研究所)

語学学習支援と言語処理,両者には,言語を理解させるという共通点がある(前 者は人間に,後者は機械にで
ある).そのため,一見,相性が良さそうな両者で あるが,一方で語学学習支援のための言語処理では気をつ
けないといけない部分 も多い.本講演では,そのような注意点を議論し,その解決法を紹介する.まず, 語学
学習支援は,その他の支援とには大きな違いがあることを指摘する.また, 語学学習支援のための言語処理で
中心的な役割を占める学習者コーパスを様々な 角度から観察する.これら二つを出発点として,語学学習支援
のための言語処理 における基礎的な処理(文分割,品詞解析など)や応用システム(文法誤り検出, エッセイ
の自動採点など)を紹介する.

[14:00-14:10] 休憩

[14:10-16:10] コーパス・言語資源 [4件]

座長:

(5) 含意関係認識コーパスの偏りによる性能評価への影響

土屋 雅稔 (豊橋技科大)

現在、英語の含意関係認識コーパスとして広く用いられている Stanford Natural Language Inference
(SNLI)コーパスの帰結文には,語彙の大きな偏りがある.そのため,仮説文を参照することなく,帰結文のみ
を用いて含意関係ラベルを推定することが,66%の精度で可能となっている.本稿では,この偏りについての
分析を報告すると共に,この偏りが深層学習に対して与える影響について述べる.

(6) 将棋解説文へのモダリティ情報アノテーション

松吉 俊 (電通大), 村脇 有吾 (京大), 亀甲 博貴 (東大), 森 信介 (京大)

本論文では、将棋の解説文にモダリティの情報を付与したアノテーションコーパスについて報告する。近年、現
実世界の物事を自然言語によって自動的に記述することや検索することに注目が集まっている。我々は、現実世
界の具体的な非言語データとして将棋に着目し、将棋の局面とそれに対応する解説コメントを収集し、コーパス
を作成した。このコーパスを学習データとして利用することにより、解説が付いていない局面を対象として、
「ゴキゲン中飛車」や「美濃囲い」などのクエリーによる検索が可能になった。しかしながら、解説テキストに
は、断定的な平叙文のみが存在するわけではなく、選ばれなかった戦型や解説者が予想した今後の駒の進行など
も言及される。否定や推測、仮定などのモダリティ情報を適切に捉えることができれば、検索の高度化につなが
ると考えられる。本研究では、将棋解説文 約2,000文に対して、3層からなるモダリティ情報を付与した。本論文
では、このアノテーションラベルの体系と付与したラベルの統計情報について報告する。

(7) 全地方議会会議録の横断検索に向けたデータ収集とデータ構造の検討

井原 大将 (東大), 内田 ゆず (北海学園大学), 高丸 圭一 (宇都宮共和大学), 木村 泰知(小樽商科大学), 江崎 浩 (東大)

全国には都道府県・市・特別区・町・村を合わせて,1,788の地方自治体 が存在しており,このうち約86%が
ウェブ上で地方議会会議録を公開している. しかしながら,ウェブ上での会議録の公開方法やデータ形式は自
治体により異なっており,横断検索や集計などにおいてそれらを統一的に扱うのは難しい. そこで本稿では,
収集や整理がしづらい会議録を対象として,それらのデータ収集方法と横断検索や集計が可能となるデータ構
造を提案するとともに,そのデータ構造を用いることで,どのようなことが比較できるのかを述べる

(8) 京都大学テキストコーパスに対する網羅的な時間情報アノテーション

坂口 智洋, 河原 大輔, 黒橋 禎夫 (京大)

テキストの時間的意味理解を目的として、事象の時間的順序関係やタイムライン生成などのタスクが盛んに行わ
れている。これらのタスクにおいてモデルの学習や評価を行うために、事象情報と時間情報を関連付けたコーパ
スが開発されてきた。本研究では、先行研究を次の2点で拡張することで網羅的な時間情報アノテーションを行う。
一つは従来扱われてきた特定的な事象表現だけでなく、習慣のような不特定な事象表現も対象に含めること、も
う一つはテキスト中の表現がもつ様々な時間情報を扱えるよう、より表現力の高い時間タグを導入することであ
る。京都大学テキストコーパスには既に述語項関係や共参照関係のアノテーションがなされており、本アノテーシ
ョンと合わせてテキスト中の事象・エンティティ・時間を対象とした統合的な時間情報解析に活用することが可
能である。

[16:10-16:25] 休憩

[16:25-17:55] 機械翻訳(2) [3件]

座長:

(9) 双方向リランキングとアンサンブルを併用したニューラル機械翻訳における複数モデルの利用法

今村 賢治, 隅田 英一郎 (NICT)

本稿では,ニューラル機械翻訳における複数モデル利用法について提案する.提案方式は,アンサンブルによっ
て複数モデルを使用し,さらにデコード方向が異なるモデルをリランキング法(双方向リランキングと呼ぶ)に
よって組み合わせる. 小規模データセットによる実験では,使用モデル数を増加させると翻訳品質は向上し,
のべ32モデルまで増加させても,翻訳品質は悪化しなかった.また,データセットによってはさらなる向上の
余地があった.大規模データセットの実験では,6アンサンブルモデルを双方向リランキングによって組み合わ
せることで,単一モデルに比べ,BLEUスコアが1.59~3.32ポイント向上した.

(10) Improving Neural Machine Translation by Utilizing Syntactic Dependency Information

Nguyen Le An, Martinez Ander, 松本 裕治 (NAIST)

In spite of achieving significant performance in recent years, there are some existing issues that
Sequence-to-Sequence Neural Machine Translation still does not solve completely. Two of them
are translation for long sentences and the over-translation problems. To address these two problems,
we propose an approach that utilize more syntactic information, such as syntactic dependency
information, so that the output is generated based on more abundant information. Experiments
on the Europarl-v7 dataset of French-to-English translation demonstrate that our proposed method
can produce dependency relations between words in the target language and improve BLEU scores
by 1.57 and 2.40 on datasets consisting of sentences with up to 50 and 80 tokens, respectively.
Furthermore, the proposed method also solved the ineffective translation for long sentences and
repetition problems in Neural Machine Translation.

(11) 英日統計的機械翻訳におけるRecursive Neural Networkを用いた事前並び替え手法の検討

瓦 祐希, Chenhui Chu, 荒瀬 由紀 (大阪大)

統計的機械翻訳において、英語と日本語のように構文構造が大きく異なる言語対では翻訳精度が低いことが知ら
れている。これを解決するために、事前に原言語を目的言語の語順に似るように並び替える、事前並び替え手法
が提案されてきた。先行研究では構文木を構築し各ノードにおいて子ノードを並び替えることで事前並び替えを
行なっているが、並び替えモデルを学習するために多くの素性を用いており、人手による特徴設計が必要であっ
た。そこで本論文では、特徴量の設計を不要としながら翻訳精度を向上することを目的とし、Rercursive Neural
 Networkを用いた事前並び替え手法を提案する。

[18:30- 21:00] 懇親会

10月25日(水)9:30-14:45

[09:30-11:30] 言語処理基礎 [4件]

座長:

(12) チャンクに基づいた逐次型統合解析

小比田 涼介, 能地 宏, 松本 裕治 (NAIST)

逐次処理は、音声処理や対話システムなどの領域において、システムの素早い反応や自然な振る舞いを達成する
上で不可欠な技術である。係り受け解析に関しては、遷移型の解析器により逐次解析が提案されてきたが、実テ
キストを入力とし、形態素解析及び係り受け解析の双方を逐次的に実行する手法に関しては、未だ十分な議論が
なされているとは言い難い。本論ではチャンクという連続する語の塊に基づいた逐次統合解析手法を提案し、従
来の非逐次型の解析器に劣らない精度を達成、日本語におけるベンチマークとして提示する。考察では、逐次統
合解析における困難点や有効素性について分析し、また、本手法の他言語拡張についても議論する。

(13) 意味役割付与における未知分野へのニューラル分野適応技術

大内 啓樹, 進藤 裕之, 松本 裕治 (NAIST)

近年,ニューラルネットワークを用いた解析手法によって,意味役割付与タスクの解析性能が向上しており,注
目を集めている.しかし,訓練データと異なる分野のデータを解析する際に,解析性能が大幅に低下するという
結果から,分野適応技術の必要性が指摘されている.本研究では,複数のニューラルモデルを用い,未知の分野
のテキストに動的に適応する技術を提案する.CoNLL-2012 Shared Taskのデータセットを用いた実験により,
提案手法の有効性を確認した.

(14) 可変次数無限隠れマルコフモデル

内海 慶 (デンソー), 持橋 大地 (統計数理研究所)

従来,隠れマルコフモデルでは状態は1つ前の状態にのみ依存する,1次マルコフモデルが利用されてきた. こ
の理由として,高次隠れマルコフモデルでは計算量が次数に応じて指数的に大きくなること,及び状態遷移の
組み合わせが膨大になることから,各遷移に対する学習事例が相対的に少なくなってしまい,データスパース
ネスの問題が起こることがあげられる. 本稿では,適切な事前分布を導入することでデータスパースネスの問
題を解決し,また次数nを確率変数として系列データの各位置に導入することで,隠れマルコフモデルを次数可
変へ拡張した手法を 提案する.

(15) 単語の表層類似性を用いた多言語単語分散表現の教師なし学習手法

佐久間 仁, 吉永 直樹 (東大)

異なる言語の単語を同一の意味空間に写像する多言語単語分散表現は、(英語など)言語資源の豊かな言語にお
いて学習された高精度の解析モデルを言語資源の乏しい言語に転用することを可能にするため注目されている。
しかしながら、既存の多言語単語分散表現の学習手法の多くは入手の難しい対訳辞書や対訳コーパスを手がかり
として利用するため、適用可能な言語が制限される問題がある。そこで本研究では、異言語間の単語について、
借用語や翻字、さらには語源を同じくする語などで部分文字列に共通性が見られることを手がかりとして、各言
語の単一言語コーパスのみから多言語単語分散表現を学習する方法を模索する。具体的には、出現文脈に加えて
単語自身を構成する部分文字列を考慮した分散表現獲得手法を、単一言語コーパスを連結して得られる複数言語
コーパスに対して適用することで、多言語単語分散表現を得ることを試みる。提案手法で得られた多言語単語分
散表現の有効性は、単語の類似度判定タスクや言語処理タスクの解析モデルを転用する実験を通して評価する。

[11:30-12:30] 昼食休憩

[12:30-14:30] 言語処理応用 [4件]

座長:

(16) メモリネットワークによる日本語の自由文からの情報の抽出

大北 剛, 井上 創造 (九工大)

自然言語の自由文が提示され, その文章/パラグラフの内容を読取った上で,ク エリが課されそれに回答を与える
質問応答の状況を考えたい. 近年, 動的メモ リネットワーク(Kumar et al., 2015)やBiDAFモデル(Seo et al., 2017)
など さまざまなアーキテクチャが提案されているが, 機械翻訳などと同様, 外部メ モリとしてのアテンション機
構をニューラルネットワークにどのように導入す るかが性能を上げる鍵となっている. 本論文においては, 質問
応答における特 殊な二つの制約(下位上位概念による制約とNOT型の知識制約)に注目してこれ らをアテンション
機構に導入し, これらの制約を外部メモリとしてアテンショ ン機構に導入する方法を議論する.

(17) 特定分野における単語重要度計算手法の提案と短い文章における著者の専門性推定への適応

滝川 真弘, 山名 早人 (早稲田)

本研究の目標は,特定分野に対する著者の専門性を如何に短い文章から判定するかにある.短い文章とは、例え
ば質問投稿サイトの回答などが挙げられる。しかし、短い文章単体では得られる情報量が限られるため、既存研
究では当該著者により記述された複数の文章(あるいは他の属性)を用いて推定を行っている。しかし、常に当
該著者に対して常に複数の文書が用意できるとは限らない。この問題を解決するため、本研究では、出現する単
語自身に専門毎に適切な重みを付与し、著者の専門性を短い文章からも推定できる手法を提案する。具体的には、
単語の重み付与手法として2つの手法C—TRLとR—TRLを提案する。評価実験においては,データセットをYahoo
知恵袋,対象特定分野を医療とコンピュータとして回答者の専門性の推定を行った。Precision@10で評価したと
ころ,医療分野においてはR-TRLが62%, コンピュータ分野においてはC—TRLが58%の精度となり, 既存手法と比
べて26ポイントの向上を確認した。

(18)カーネル埋め込みを用いた英語学習者向けの用例検索

塩田 健人, 小町 守 (首都大), 池谷 瑠絵 (情報・システム研究機構), 持橋 大地 (統計数理研究所)

我々は英作文支援のアプローチの一つである用例検索に取り組む.一般的なキーワード検索においてユーザーが
言語学習者である場合,検索要求に即した適切なクエリをユーザーが選択できない問題がある.そこで本研究で
は,クエリの背景にある潜在的な検索要求を考慮するために,カーネル埋め込みを用いた用例検索モデルを提案
する.カーネル埋め込みと内積に基づく単純なクエリ-文間の類似度計算手法では,クエリと関係の弱い単語がノ
イズとなるが,N-gram 窓の導入によって我々はこの問題を解決した.英語学習者によって収集されたクエリ-適
合文のデータセットよる実験の結果,提案手法は文間類似度タスクの教師なし手法である先行研究より高い適合
率を達成した.

(19) 同義語を考慮した日本語の単語分散表現の学習

田口 雄哉, 田森 秀明, 人見 雄太 (朝日新聞), 西鳥羽 二郎, 菊田 洸 (レトリバ)

近年,自然言語処理の研究において単語の分散表現が広く活用されている.word2vec などに代表される単語
の分散表現は,分布仮説をもとに単語の分散表現を学習する.しかし,分布仮説にもとづいた学習を行なった場
合,同義語や対義語に関わらず,同じ文脈に現れる単語は,似たようなベクトルになってしまうため,単語間の
類似度を測る際に影響が出てしまう.その対策として,WordNet などの意味辞書から獲得した同義語対を用い
て単語の分散表現をfine-tuningする手法が提案されているが,日本語での効果は報告されていない.そこで,
本研究では,訓練済みの単語分散表現を用い,同義語対を用いた日本語の単語分散表現のfine-tuningを行な
う.単語分散表現の評価は,日本語の単語類似度データセットを用いて行った.実験の結果,同義語対を考慮し
た学習手法を適用することで,既存の単語の分散表現よりも精度が改善することを確認した.

[14:30-14:45] クロージング

============================

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.当日は資料をプリントアウトしてご持参いただくか,ご自身の
PCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト

※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.
当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)
お得になります.研究会登録は以下のウェブサイトから行えます.

============================
研究会幹事団

主査:
乾健太郎 (東北大学)
幹事:
荒瀬由紀 (大阪大学)
岡崎直観 (東京工業大学)
木村俊也 (株式会社メルカリ)
小町守  (首都大学東京)
西川仁  (東京工業大学)
運営委員:
浅原正幸 (国立国語研究所)
荒牧英治 (奈良先端科学技術大学院大学)
石野亜耶 (広島経済大学)
金丸敏幸 (京都大学)
小林隼人 (Yahoo! JAPAN 研究所)
古宮嘉那子(茨城大学)
貞光九月 (フューチャーアーキテクト株式会社)
佐藤敏紀 (LINE株式会社)
新里圭司 (株式会社楽天)
鈴木祥子 (日本アイ・ビー・エム株式会社)
数原良彦 (Recruit Institute of Technology)
高村大也 (東京工業大学)
土田正明 (株式会社ディー・エヌ・エー)
堂坂浩二 (秋田県立大学)
徳永拓之 (スマートニュース株式会社)
二宮崇  (愛媛大学)
橋本力  (Yahoo! JAPAN 研究所)
藤田早苗 (日本電信電話株式会社)
牧野貴樹 (グーグル株式会社)
牧野拓哉 (株式会社富士通研究所)
松崎拓也 (名古屋大学)
ミハウ・プタシンスキ(北見工業大学)
村脇有吾 (京都大学)

--
Shunya Kimura