日本データベース学会

dbjapanメーリングリストアーカイブ(2019年)

[dbjapan] 情報処理学会 第241回自然言語処理研究会 参加募集 (開催8/29-8/30)


日本データーベース学会の皆様


小樽商科大学の木村と申します.

情報処理学会 第241回自然言語処理研究会 参加募集についてですが,
プログラムに変更があったため,再度ご案内させていただきます.


-----------------------



情報処理学会 第241回自然言語処理研究会 参加募集
https://nl-ipsj.or.jp

●日程: 2019年8月29日(木),30日(金)

●会場: 小樽商科大学 5号館 470号室
(〒047-8501 北海道小樽市緑3丁目5-21)

●懇親会:
8月29日に懇親会を開催する予定です.
参加を希望される方は8月18日(日)までに下記フォームにご回答ください.
https://forms.gle/CdVku8geGm9CjmPD7


===========
●問い合わせ先:
木村泰知(小樽商科大学)
E-mail: kimura (at) res.otaru-uc.ac.jp

8月29日(木) 発表15件
[10:00-11:40] 翻訳・意味・知識獲得 (4件)
[11:40-13:10] 昼休み
[13:10-14:25] 情報抽出 (3件)
[14:25-14:40] 休憩
[14:40-15:55] 分散表現・意味 (3件)
[15:55-16:10] 休憩
[16:10-17:25] 生成・解析 (3件)
[17:25-17:40] 休憩
[17:40-18:30] 知識獲得 (2件)

8月30日(金) 発表13件
[09:00-10:15] 機械翻訳 (3件)
[10:15-10:30] 休憩
[10:30-11:45] 機械翻訳 (3件)
[11:45-13:15] 昼休み
[13:15-14:55] 言語処理応用(4件)
[14:55-15:10] 休憩
[15:10-16:25] 言語処理応用 (3件)
[16:25-16:40] 休憩 (集計)
[16:40-16:55] クロージング

※若手奨励賞の対象者には著者名の前に「〇」を付けています.
※NL241は発表件数が多いため,発表20分,質疑5分としています.

8月29日(木) 発表15件
[10:00-11:40] 翻訳・意味・知識獲得 (4件)
(1) 事前訓練済みBERTエンコーダーを再利用したニューラル機械翻訳

今村賢治(国立研究開発法人 情報通信研究機構), 隅田英一郎(国立研究開発法人 情報通信研究機構)

本稿では,事前訓練済みのBERT (Bidirectional Encoder Representations from
Transformer)モデルをTransformerベースのニューラル機械翻訳(NMT)に適用する.単言語のタスクと異なり,NMTの場合,BERTのモデルパラメータ(訓練済み)に比べ,デコーダー(未学習)のパラメータ数が多い.そこで,まずBERTエンコーダーのパラメータを固定して,未学習パラメータのみを訓練し,その後,全体を微調整する2段階最適化を行う.実験では,直接微調整したときにはBLEUスコアが極めて低くなったのに対して,2段階最適化では訓練が成功した.その結果,Transformerの基本モデルや,モデル構造が同じ事前訓練なしのTransformerに比べてもBLEUスコアが向上することが確認された.また,少資源設定で,より効果が高いことが確認された.


(2) 共起情報を利用した不具合事象の同義表現獲得

川村晋太郎(株式会社リコー)

製造業の品質保証業務において,不具合の原因究明,対策内容検討や再発防止に活用する為,コールログ,保守記録,保守ナレッジ共有サイトなどの多様な情報から解決の糸口になりそうな過去の情報を活用している.数百万件規模の多様なデータから所望のデータを検索する際に,その検索精度を向上させる為,対象製品の部品名,箇所名や不具合現象などの同義(言い換え)表現を得る必要がある.同義表現については,コーパス全体から分布仮説に基づいた類似性指標(コサイン類似度など)で獲得する手法がよく知られているが,同じ単語の同義表現であっても,実際に文書内で使用される言い回しや表現方法は,不具合事例により異なることも多い.本稿はこのような同義表現獲得の問題点に鑑み,ある単一の用語に対する同義表現を獲得するのではなく,不具合やトラブルを表す"事象"の表現が「箇所名+現象名」で成り立つことに着目し,それらをセットにした際の互いの関連度・共起度によって,「箇所名」及び「現象名」の同義表現を同時に獲得していく手法の開発を試みた.


(3) 対話システムが積極的な情報提供をするための推薦知識獲得

福原裕一(情報通信研究機構 データ駆動知能システム研究センター), 水野淳太(情報通信研究機構 データ駆動知能システム研究センター),
門脇一真(情報通信研究機構 データ駆動知能システム研究センター,株式会社日本総合研究所), 飯田龍(情報通信研究機構
データ駆動知能システム研究センター,奈良先端科学技術大学院大学 先端科学技術研究科), 鳥澤健太郎(情報通信研究機構
データ駆動知能システム研究センター,奈良先端科学技術大学院大学 先端科学技術研究科)

対話システムで「ステーキをおいしく焼くにはお肉は常温に戻しておくことをお勧めします」や「ウール素材のお手入れにはブラシをまめに行うことを勧めます」といったユーザに役立つ情報を提供するためには,このような推薦対象(例「ステーキをおいしく焼く」)と推薦情報(例「お肉は常温に戻す」)から成る推薦知識を大規模に獲得することが重要となる.本研究では,まずWeb文書から推薦知識の候補として抽出した最大2文を対象に,推薦対象とその対象に関する推薦情報が含まれるか否かをBERTを用いて分類する手法を開発した.さらに,この手法で得られた推薦知識を含む文を対話システムを通じてコンパクトにユーザに提示するために,推薦知識を要約する手法をpointer-generator
networkを用いて開発した.これらの手法を学習・評価するために,推薦知識分類のためのデータとして58,978件,推薦知識要約のためのデータとして19,647件を人手でアノテーションして作成した.評価実験の結果,推薦知識分類の性能として精度約72%,推薦知識要約の性能としてROUGE-2
F値で約76%を得た.


(4) NPCMJに対する述語項構造シソーラスの意味役割と概念フレームの付与

竹内孔一(岡山大学), BatlerAlastair(弘前大学), 長崎郁(名古屋大学), PardeshiPrashant(国立国語研究所)

ダウンロード可能な形で,日本語のテキストに対して構文木を付与しているNPCMJに対して,述語項構造シソーラスの意味役割と概念フレームを付与するプロジェクトをスタートした.本発表では,アノテーションの枠組と体制,意味役割および概念フレーム付与における問題点を整理しつつ,今後の見通しについて説明する.


[13:10-14:25] 情報抽出 (3件)
(5) 議会会議録に含まれる法律名の表記揺れ問題解決に向けたエンティティリンキングの試み

〇桧森拓真(北海道大学大学院情報科学院), 木村泰知(小樽商科大学), 荒木健治(北海道大学大学院情報科学研究院)

国会では,委員会や本会議において法律案に関する議論が行われている.数多くの議員が法律案の名称を何度も発言することから,法律案の名称は,省略されることや異なる表現で呼ばれることがあり,同一の法律案を示しているのかを判断することが困難な場合がある.例えば,「働き方改革法案」には「働き方改革関連法」「働き方改革一括法」などの表記揺れが存在する.そこで,本研究では,議会会議録に含まれる法律名の表記揺れの問題を解決するために,エンティティリンキングを行う.実験では,辞書ベース,Wikipedia2Vecをベースラインとし,提案手法との比較を行う.提案手法では,ベースラインであるWikipedia2Vecに加え,メンションの各候補エンティティと、メンションを含む一文の分散表現とのコサイン類似度,メンションとエンティティの文字列の差分のLenghScore,メンションとエンティティの間で一致している文字数に応じたPenaltyに基づきスコアを算出し,最もスコアの高いエンティティを出力する.実験の結果,国会データでは,提案手法がF値において0.713を示し,0.198ポイントベースラインを上回り,地方議会会議録データでは,F値において0.719を示し,0.030ポイントベースラインを上回る結果となった.


(6) トピック間の階層構造を考慮したGaussian LDAの構成

〇吉田崇裕(東京大学大学院情報理工学系研究科), 久野遼平(東京大学大学院情報理工学系研究科), 大西立顕(東京大学大学院情報理工学系研究科)

トピックモデルは自然言語処理を始めとして多くの分野で用いられる手法である.トピックモデルの基本形であるLatent Dirichlet
Allocation(LDA)の提唱後,様々なLDAの改良モデルが提案されてきた.例えばCorrelated Topic
Model(CTM)はLDAが文書中のトピック間の相関を十分に考慮できない点に注目したモデルであり,汎化性能が向上すると報告されている.Gaussian
LDAはLDAが単語間の意味的な近さを十分に考慮できない点に注目したモデルであり,トピックの意味一貫性が向上すると報告されている.両者を組み合わせたCorrelated
Gaussian Topic Model(CGTM)と呼ばれるモデルは上記二つの欠点を同時に補うのみならず,単語の埋め込み空間上でトピックの相関構造を可視化することができ革新的である.しかし,文書内におけるトピックの関係性は,CGTMが対象とする単純な相関構造だけで表現できるものではない.実際日常生活においても,例えば「経済」-「金融政策」-「出口戦略」のように話題の階層性を意識し会話をすることは多々ある.そこで本稿では階層的トピックモデルとして最も単純なPAM(Pachinko
Allocation Model)とGaussian
LDAを組み合わせたモデルを提案することで,トピックの階層構造を単語埋め込みベクトル空間上で分析する一歩としたい.


(7) 辞書を用いたコーパス拡張による,化学ドメインのDistantly Supervised固有表現認識

〇辰巳守祐(奈良先端科学技術大学院大学), 後藤啓介(理化学研究所 革新知能統合研究センター), 進藤裕之(奈良先端科学技術大学院大学),
松本裕治(奈良先端科学技術大学院大学 / 理化学研究所 革新知能統合研究センター)

化学ドメイン固有表現抽出では,学習データのアノテーションコストが極めて高く,学習データ確保が課題である.この問題の打開策として,人手を介さずにアノテーションする,Distantly
Supervised固有表現抽出の研究が注目されている.ただ,当手法では,自動生成コーパスが全ての化学物質名を網羅するのが困難な為,未知語問題が生じる.そこで,本研究では辞書を用いたコーパス拡張を提案する.人手アノテーションコーパスであるChemdNERでの評価実験の結果,提案データによる学習モデルがベースラインを上回った.


[14:40-15:55] 分散表現・意味 (3件)
(8) グラフニューラルネットワークを用いた半教師あり語義曖昧性解消

〇谷田部梨恵(茨城大学大学院理工学研究科情報工学専攻), 佐々木稔(茨城大学工学部情報工学科)

単語の語義曖昧性解消は,今日に至るまで様々な研究が行われており,教師あり学習を用いることで高い精度を出している.先行研究では,このアプローチにおける識別誤りの主要な要因として学習用のデータ不足を挙げている.そのため,精度を向上するためにはさらに多くの用例文の追加が求められている.しかし,学習用のデータを新たに追加することは,語義識別に精通した専門家による正解ラベル付与が必要となるためコストがかかるという問題がある.そこで,本研究ではグラフニューラルネットワークを用いた半教師あり語義曖昧性解消手法を提案し,提案手法が語義識別精度の改善に有効であることを目指す.


(9) 鏡映変換に基づく埋め込み空間上の単語属性変換

〇石橋陽一(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学),
中村哲(奈良先端科学技術大学院大学)

本研究では鏡映変換に基づく埋め込み空間上の単語の属性変換を提案する。自己相互情報量(PMI)に基づく単語埋め込みは、``king - man
+ woman = queen''
といったアナロジーが成立することが知られている。このアナロジーを用いて入力単語xをmanからwomanに、またwomanからmanに変換することが可能である。一方、アナロジーによる変換はxが男性か女性かどうかで演算が変わるため、xの属性に関する知識が必要となるが、そのような知識は無数にあるため全て付与することは不可能である。そこで本研究では、属性知識を用いず単語属性を変換するため、理想的な性質を持つ写像である鏡映変換を導入する。鏡映変換は同じ写像でベクトルの位置を相互に反転させる変換であるため、入力単語ベクトルが目的の属性を持つかどうかにかかわらず変換できる。性別属性を変換する実験の結果、提案手法は属性の知識を用いることなく、性別単語を45.8%の精度で相互に変換できることが示された。また性別属性を持たない単語に鏡映変換を適用した結果、最大で99.9%が変換されず、鏡映変換は目的属性を持つ単語のみを変化させる非常に高い安定性を持つことが示唆された。


(10) Long Short-Term Memory に基づくRecurrent Auto-Encoder
を用いた文の分散表現獲得手法に対する Attention 機構の導入

〇飯倉陸(大阪府立大学), 岡田真(大阪府立大学), 森直樹(大阪府立大学)

近年,計算機の著しい発達に伴い,言葉や画像といった離散的な記号概念の分散表現を獲得する研究が盛んになされている.得られた分散表現は人工知能研究におけるさまざまなタスクに対して適用されるが,その精度は分散表現の性能に大きく依存する.それゆえに,分散表現の性能向上は人工知能研究の発展のために極めて重要な事項であるといえる.自然言語処理の分野においては現状として,単語の分散表現獲得手法については
Word2Vec のような複数のタスクに対して高い性能が認められている優れた手法が開発されている.その応用として,文の分散表現の獲得手法に関するいくつかの先行研究が存在するが,いまだに決定的な手段は確立されているとは言い難い.本研究では,既存の文の分散表現獲得手法の改良を目的として,Long
Short-Term Memory に基づく Recurrent Auto-Encoder を用いたモデルに対してAttention
機構を導入した.そして獲得した分散表現を用いた文の連続性識別の実験を通して,それらの性能を Attention
機構の有無の観点から相対的に評価した.その結果,文章の連続性を考慮するという観点から,分散表現の性能向上を確認することができ,Attention
機構を導入することの有効性を示せた.


[16:10-17:25] 生成・解析 (3件)
(11) 与えた外部情報の再予測モデルを組み込んだニューラル文生成モデルの検討

〇隆辻秀和(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学),
中村哲(奈良先端科学技術大学院大学)

言語生成は、与えられた外部情報のセットに対して、自然言語文をドメインに適当な形で生成するタスクである。近年、言語生成に用いられるニューラルネットワークを用いた手法は、より自然で柔軟な応答生成が実現できることが知られている。一方で、入力となる外部情報に対応する文生成を単語予測のモデルで行うため、モデルがどの情報を利用し文を生成したかを説明することが難しい。そこで本研究では、与えた外部情報を生成文に反映することを保証するため、与えた外部情報を再予測するモデルと再予測の結果に対する損失を利用した。アノテーション済みのコーパスを用いた実験を行い、生成された文の評価と、生成文に含まれる情報の精度評価を行った。


(12) 因果関係と事態分散表現を用いた雑談対話応答のリランキングにおける傾向分析

〇田中翔平(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学/科学技術振興機構さきがけ),
須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

本論文では,対話履歴に対し一貫した多様な応答を選択する手法を提案する.提案手法では対話履歴に対する一貫性を保つため,対話モデルより生成された応答候補を,対話履歴と応答候補の間に存在する因果関係(ストレスが溜まる
→ 発散する,など)を用いてリランキングする.この際,因果関係の認定には統計的に獲得された因果関係ペアを用いるが,対話中に存在する全ての因果関係を被覆するような辞書を用意することは難しい.そこで,Role
Factored Tensor Model
を用いて事態を分散表現に変換することで,因果関係知識のカバレージを向上させ,因果関係知識と対話中の因果関係の頑強なマッチングを実現した.自動評価,人手評価の結果,提案手法は応答の一貫性や対話継続性を向上させることが確認できた.一方で,事態の過汎化に由来する応答の自然性低下が見られる場合もあった.これらの問題についても例示し,解決の方向性について論じる.


(13) モダリティ表現認識・事象の事実性解析の同時学習

〇友利涼(京都大学 大学院情報学研究科), 村脇有吾(京都大学 大学院情報学研究科), 松吉俊(電気通信大学 大学院情報理工学研究科),
亀甲博貴(京都大学 学術情報メディアセンター), 森信介(京都大学 学術情報メディアセンター)

モダリティ表現や事象の事実性などを正確に認識・解析することは、否定や推量などが含まれるテキストの言語理解や文生成を行ううえで重要である。本研究では、モダリティ表現認識器・事象の事実性解析器などをマルチタスク学習の枠組みを用いて同時学習する。これらのタスクは相互に関連しており、マルチタスク学習を用いてその関係性を自動的に学習することを目指す。実験では、同時学習による手法が単純な手法による精度を上回った。また、生コーパスを用いて事前学習することにより、さらなる精度向上を示した。



[17:40-18:30] 知識獲得 (2件)
(14) A Simple Reranking Method for Knowledge Graph Completion

〇LuYuxun(Nara Institute of Science and Technology),
ShigetoYutaro(Chiba Institute of Technology), HayashiKatsuhiko(Osaka
University), ShimboMasashi(Nara Institute of Science and Technology)

A recent report indicates that learning type embeddings of entities in
addition to normal embedding helps improve the performance of
knowledge graph completion. We argue that the type of arguments
individual relations take is inherent in the normal embedding of
entities, and this information can be exploited with the help of
training data. A simple reranking method is proposed that solely
relies on training data and learned entity and relation embeddings.
This method requires only four parameters per relation to be tuned on
the validation data. Experimental results show that its performance is
close to the approach based on type embeddings, although it does not
require retraining of embeddings.


(15) クイズ解答タスクにおける大規模ラベルなしコーパスの利用: 言語モデルとデータ拡張

〇鈴木正敏(東北大学), 松田耕史(理化学研究所/東北大学), 大内啓樹(理化学研究所/東北大学), 鈴木潤(東北大学/理化学研究所),
乾健太郎(東北大学/理化学研究所)

Quizbowlは、複数の文からなるクイズ問題の入力に対して、正解となるエンティティを予測する質問応答タスクである。Quizbowlは超多クラス(数万クラス以上)の分類問題と見なすことができるが、その場合、訓練データの規模が限定的であるためにfew-shot学習の問題が生じる。すなわち、訓練データにわずかな回数しか出現しないエンティティであっても、テスト時には正しく答えなければならない。この問題に対処するため、本研究では、1)
大規模コーパスで事前訓練された言語モデルの利用と、2)
Wikipediaを利用したデータ拡張を組み合わせたクイズ解答の手法を提案する。具体的には、1)
汎用言語モデルBERTの複数の層が出力する分散表現を用いて、クイズ問題から正解エンティティへのマッピングを学習する。さらに、2)
Wikipediaの記事の性質を利用して、テキスト-エンティティ対のデータを大量に生成し、擬似クイズ問題として訓練データに追加する。これらモデルとデータ両方向の拡張により、Quizbowlのクイズ解答の性能が大幅に向上することを実験的に示す。


8月30日(金) 発表13件
[09:00-10:15] 機械翻訳 (3件)
(16) スタイル変換のための折り返し翻訳に基づく事前訓練

〇梶原智之(大阪大学データビリティフロンティア機構), 三浦びわ(株式会社 AI Samurai), 荒瀬由紀(大阪大学大学院情報科学研究科)

本研究では、スタイル変換における少資源問題に取り組む。同一言語内の翻訳問題であるスタイル変換は、機械翻訳とは異なり訓練用のパラレルコーパスを大規模に収集することが難しい。この問題に対して、先行研究ではルールベースのデータ拡張や目的とするスタイルの機械翻訳とのマルチタスク学習が提案されているが、人手や特定のコーパスに依存するため他のスタイルへの拡張が困難であった。そこで我々は、任意のスタイルに適用可能な生コーパスに基づく転移学習のフレームワークを提案する。まず事前訓練では、生コーパスを折り返し翻訳した疑似言い換えコーパスを用いて、スタイルを考慮しない言い換え生成器を訓練する。続いて再訓練では、小規模なパラレルコーパスを用いて、言い換え生成器を目的とするスタイルへのスタイル変換に特化させる。GYAFCデータセットにおける評価実験の結果、提案手法がスタイル・ドメイン・モデル構造のいずれにも依存せず、常にスタイル変換の性能を大幅に改善することを確認した。さらに詳細な分析の結果、高品質な折り返し翻訳を利用できない設定やターゲットドメインの生コーパスを利用できない設定でも提案手法は有効に機能し、再訓練のためのパラレルコーパスが1,000文対と非常に少ない設定でさえ高品質なスタイル変換を実現できることがわかった。


(17) 機械翻訳の前処理のための言い換え辞書自動作成手法の提案

〇胡尤佳(大阪府立大学工学域), 岡田真(大阪府立大学工学研究科), 森直樹(大阪府立大学工学研究科)

近年,ニューラルネットワークを用いる手法が自然言語処理の多くのタスクで成果を上げている.機械翻訳の分野でも,ニューラル機械翻訳が登場し,これまでのフレーズベース機械翻訳や統計的機械翻訳と比べて翻訳の質が飛躍的に上がり,流暢性の高い翻訳もできるようになった.しかし,低頻度語や未知語が存在することにより,翻訳の際に意味が通じなくなるという問題が依然存在している.通常の機械翻訳の場合,出力層における語彙数が制限されているため,低頻度語は未知語(OOV)と見なされ,意味繋がりが中断され,翻訳精度が悪くなる.このような低頻度語や未知語の問題を解決するために,翻訳に前処理をするアプローチがある.先行研究では,学習データの目的言語文に存在する低頻度語を大規模パラフレーズ辞書を用いて高頻度語に言い換えてから翻訳する手法が提案されている.ここでは,目的言語文に低頻度語が存在する場合,その単語またはその単語を含むフレーズを高頻度な単語またはフレーズに言い換えることで,言い換え前後の意味を保持したまま翻訳結果の未知語の削減を求める.ここでは,追加で大規模パラフレーズ辞書が必要となり,パラフレーズ辞書によって言い換えた学習データからの翻訳モデルの作り直しが必要となる.そこで本研究では,作成した機械翻訳のモデルを直接用いて,モデル作成時に用いた学習データからそのままパラフレーズ辞書を自動作成する手法を提案する.その後,その辞書を用いた低頻度語の高頻度語への言い換えを入力文の前処理として施すことにより,意味を保持したまま翻訳精度を向上できると考える.本稿では提案手法の有効性を実験により検証し,考察した.


(18) Double Attention-based Multimodal Neural Machine Translation with
Semantic Image Region

〇ZhaoYuting(Tokyo Metropolitan University), KomachiMamoru(Tokyo
Metropolitan University), KajiwaraTomoyuki(Osaka University),
ChuChenhui(Osaka University)

Current work on multimodal neural machine translation (MNMT) has
mostly paid attention to the effect of combining visual and textual
modalities in improving translation performance. However, it has been
suggested that the visual modality is only marginally beneficial. As
conventional visual attention mechanisms are used to select visual
features from grids of equal size in an image generated by
convolutional neural net, the feature of a grid that is not related to
image content may arise slight effects in aligning visual concepts
associated with the textual object. In contrast, we propose to apply
semantic image regions for MNMT with integrating visual and textual
features by means of two separate attention mechanisms (double
attention) in order to improve predictive token generation. Our
approach on the Multi30k dataset achieves 0.5 and 0.9 BLEU point
improvement on English--German and English--French translation tasks
compared with the baseline double attention-based MNMT.


[10:30-11:45] 機械翻訳 (3件)
(19) 言語横断な言語モデルによる原言語情報を活用した自動機械翻訳評価

〇髙橋洸丞(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

本研究では原言語文と参照訳文から翻訳文がどれだけ正しいかを推定する自動評価手法を検討する. 既存の自動翻訳評価手法では, 1 対 1
の参照訳文と翻訳文のペアから翻訳文を評価する手法が主流だが, 1 対 1 ペアの比較では,
翻訳文が参照訳文と一見異なるが正しい訳文である際に評価性能が下がりやすい. こ の問題は,
マルチリファレンスと呼ばれる参照訳文を複数用意することで解決可能だが, 各原言語文に対し て参照訳文を複数作成する必要がありコストが高い.
そこで本研究では, 原言語文も参照訳文の一つとみな して, 原言語文を評価に用いることで前述の問題に対処する.
言語横断な言語モデルを用いて入力文を分散 表現とし, 最終的な評価値を多層パーセプトロンを通して出力する回帰モデルによる評価手法を検討した.


(20) 英日同時翻訳のためのConnectionist Temporal Classificationを用いたニューラル機械翻訳

〇帖佐克己(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

同時翻訳は文の入力が終了する前にその文の翻訳を開始するタスクである.このタスクでは翻訳精度と訳出までの遅延時間がトレードオフの関係にあり,システムを構築する際には翻訳を行うタイミングを適切に決定する必要がある.本研究では,ニューラル機械翻訳においてこの訳出タイミングを適当的に決定する方法を提案する.提案手法では目的言語側の語彙に訳出を行わない代わりに出力するためのメタトークン
‘<wait>’ を追加し,損失関数としてConnectionist Temporal
Classification(CTC)と呼ばれるアルゴリズムを目的関数に導入する.CTCによって
縮約すると正解系列と一致するような‘<wait>'を含む系列全て
に対して最適化を行うことで翻訳モデルと訳出タイミング制御を同時に最適化することができ,さらに訳出タイミングを適応的に決定することも可能となる.また,このモデルを英語から日本語への同時翻訳タスクに対して適用し,その翻訳結果の精度や問題点について検討する.


(21) スタイル変換技術による対訳コーパスから英日同時通訳コーパスへの拡張

〇二又航介(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村 哲(奈良先端科学技術大学院大学)

同時通訳とは,入力文章が完結する前に目的言語の部分的な翻訳結果を訳出するタスクである.同時通訳システムを介したコミュニケーションでは,翻訳の遅延が円滑なコミュニケーションの大きな障害となるため,遅延を最小限にしつつ正確に部分訳出をする必要がある.特に英語と日本語のように語順が大きく異なる言語間の同時通訳では,訳出開始までの遅延が大きな問題となる.一方で,原言語の語順に近い形で訳出を行うことができれば,遅延を少なくすることができる.同時通訳システムの学習には通常,機械翻訳システムと同様に対訳コーパスが用いられる.同時通訳コーパスは,機械翻訳システムの学習に用いられる対訳コーパスと異なり,入力文が完結する前に目的言語の部分訳出を行った文から構成される対訳コーパスである.したがって,同時通訳システムの学習に用いられる対訳コーパスとして,同時通訳コーパスを用いることができれば,入力文を小さな部位に区切り逐次訳出できるため,訳出を終えるまでの遅延が少なくなる.しかし,現在利用可能な同時通訳コーパスの量は非常に少ないため,このような問題設定は現実的ではない.そこで本稿では,機械翻訳に用いられる対訳コーパスから,同時通訳コーパスへと拡張する手法について提案する.提案手法ではスタイル変換を用いることで,機械翻訳のスタイルから同時通訳へのスタイルへと変換を行う.また,スタイル変換により生成された疑似同時通訳文について現状での問題点について検討する.


[13:15-14:55] 言語処理応用(4件)
(22) BERTを用いたテレビドラマに関する関心動向・感想のウェブマイニング

〇川口輝太(筑波大学), 久保遼馬(筑波大学), 藤田拓也(筑波大学), 前田竜冶(筑波大学), 宇津呂武仁(筑波大学),
小林彰夫(筑波技術大学), 西崎博光(山梨大学), 河田容英(ログワークス)

本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向・感想・レビュー類の情報探索過程を支援することを目的として,ブログ・ドラマ関連サイト等のウェブページからの情報収集・集約を行うウェブマイニング技術を提案する.提案手法においては,BERTおよびWikipediaを用いて,文単位での当該ドラマ関連判定および主観情報判定を行うとともに,文単位での判定結果に基づいて,ウェブページ単位での当該ドラマ関連判定および主観情報判定を行う手法,および,その評価結果について述べる.


(23) 評価者バイアスを考慮した小論文自動採点手法

〇岡野将士(電気通信大学), 宇都雅輝(電気通信大学)

近年、深層学習モデルを利用した小論文自動採点手法が注目されている。このような自動採点手法では、採点済み小論文コーパスからモデルを学習する。しかし、小論文の採点では、各評点が評価者の特性(甘さ/厳しさなど)に依存することが多く、このような場合、学習される自動採点モデルが評価者特性の影響を受け、得点予測の性能が低下する問題がある。他方で、評価者の影響を考慮してスコアを推定できる数理モデルが近年多数提案されている。本研究では、この数理モデルで得られるスコアを予測するように自動採点モデルを学習する手法を提案する。提案手法を利用することで、コーパスを採点する評価者の特性に依存せず、自動採点モデルを学習できる。本論文では、実データ実験により提案モデルの有効性を示す。


(24) Automated Essay Rewriting (AER): Grammatical Error Correction,
Fluency Edits, and Beyond

〇MitaMasato(RIKEN AIP/Tohoku University), HagiwaraMasato(Octanove
Labs), SakaguchiKeisuke(Allen Institute for Artificial Intelligence),
MizumotoTomoya(Future Corporation), SuzukiJun(Tohoku University/RIKEN
AIP), InuiKentaro(Tohoku University/RIKEN AIP)

We propose the Automated Essay Rewriting (AER) task, where computer
systems make automatic edits to argumentative essays to improve their
quality. AER subsumes types of edits beyond single sentences such as
coherence, cohesion, and style, which are not within the scope of
traditional tasks such as grammatical error correction (GEC) and
fluency edits. The quantitative and qualitative analyses of a corpus
specifically designed for AER reveal that these edits account for
almost half of edits made by professional proofreaders. We also
discuss the challenges, issues, and future direction of AER by
comparing with other tasks.


(25) 文符号化器のマルチタスク学習によるテキスト分類モデルの頑健化

〇大橋空(大阪大学大学院情報科学研究科), 高山隼矢(大阪大学大学院情報科学研究科), 梶原智之(大阪大学データビリティフロンティア機構),
ChenhuiChu(大阪大学データビリティフロンティア機構), 荒瀬由紀(大阪大学大学院情報科学研究科)

一般的なニューラルテキスト分類モデルは、文をベクトル化する文符号化器と、文ベクトルを基に分類先の各ラベルが付与される確率を計算する分類器からなる。このようなモデルは、特定の単語が出現する文に対し、文意に関わらずその単語との共起頻度が高いラベルに分類しやすくなり過学習しやすい。これは、文符号化器が分類に強く寄与する単語を過度に反映した文ベクトルを生成するためであると考えられる。この課題に対し本研究では、同じ(異なる)ラベルを持つ文同士のベクトルはベクトル空間で近傍(遠方)に位置すべき,という直感に基づくマルチタスク学習手法を提案する。具体的には、共通のラベルを持つ文同士の文ベクトルが類似するように、文符号化器を通常のテキスト分類タスクおよび同一ラベル判別タスクのマルチタスク学習によって訓練する。同一ラベル判別タスクでは、
コーパスからサンプリングした複数の文のうち、どれが入力文と同一のラベルを持つかを判別できるように文符号化器を訓練する。これにより、文符号化に特定の単語が過度に影響するのを抑制し、テキスト分類の性能を改善するような文ベクトルが得られると期待できる。提案手法の有効性を検証するため、単一ラベル分類のデータセット6つ、複数ラベル分類のデータセット3つそれぞれについて、2種類の文符号化器を用いて実験を行い、文書の複数ラベル分類のデータセットについて、1種類の文符号化器を用いて実験を行った。結果より、6つのデータセットについて全ての文符号化器で提案手法がベースラインを上回る精度を達成し、提案手法の有効性が示された。


[15:10-16:25] 言語処理応用 (3件)
(26) 機械学習を用いた漫画のオブジェクト順位推定

〇元山直輝(大阪府立大学 工学域), 岡田真(大阪府立大学 工学研究科), 森直樹(大阪府立大学 工学研究科)

近年, 深層学習をはじめとする機械学習技術の発展を背景に,
画像処理と言語処理が密接に結びついたマルチモーダルな分野として漫画に関する研究が注目されている. 漫画は画像データで提供されることから,
画像処理に基づいた研究は数多くなされてきたが, 対話理解にまで踏み込んだ研究はなされてこなかった.
本研究の目的は文脈に基づき会話の連続性を正しく認識することである.
コマや台詞の読み順などの読者が物語の文脈を踏まえて解釈する内容に踏み込んだ漫画のストーリー理解に関する研究のためには,
漫画におけるコマや台詞といったオブジェクトの順番についてのアノテーションデータが必要不可欠である. そこで,
コマと台詞に順位をつけるアノテーションツールを開発し, 既存の漫画データセットの拡張をした. そして,
文脈を踏まえた漫画の理解の準備として, 座標情報を用いた機械学習によるコマと台詞の順位推定手法を提案する. さらに,
漫画内の文書の言語的特徴について調査し, 自然言語処理の活用の可能性について考察する.


(27) 入力音声に続く文章の予測

〇恒松和輝(奈良先端科学技術大学院大学), サクリアニサクティ(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

近年の技術の進歩により、音声認識は人間に近い非常に高い性能を示しています。しかし、それらは与えられた音声をただ文字に起こすだけです。人間同士の対話では、発せられた言葉からその後に続く言葉を予測できることがあります。本研究では、深層学習を用いてそのようなタスクを実行できるシステムの構築を目指しています。


(28) 生成型文要約のための抽出性に着目したデータ選択

〇長谷川駿(東京工業大学 工学院), 上垣外英剛(東京工業大学 科学技術創成研究院), 奥村学(東京工業大学 科学技術創成研究院)

生成型文要約は必ずしも原文の語句を抽出する必要がなく,入力に対して極めて柔軟な要約文を生成することが可能である.しかし,我々の事前調査で,最高精度に近い性能を達成している文要約器の出力では,原文から借用した単語が生成文の約8割を占めていることが判明した.一方で,その要約器の学習に用いた訓練データでは,参照文における原文から借用可能な単語は約6割にとどまっている.我々は,これらの調査結果における実際の生成文と訓練データの抽出率の乖離から,既存の生成型文要約器が抽出的な要約を得意としており,抽出率の低いデータ対が学習時のノイズとなっているという仮定を置いた.本研究ではこの仮定に基づき,訓練データから抽出率の低いデータ対を除去する,
容易で効果的なデータ選択手法を提案する.実験の結果,提案手法を用いた場合,全データで学習した場合の約半分のデータ量・学習時間で同等の要約精度を達成できることを確認した.また,訓練データの抽出性・生成性を変化させて学習・比較を行うことで,それらの訓練データの性質が文要約器に与える影響の分析も行った.



[16:25-16:40] 休憩 (集計)
[16:40-16:55] クロージング

=============================
●研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いません.また,特許出願の公知日(研究報告の公開日)が従来より1週間早まりますので,ご留意ください.

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開します.当日は資料をプリントアウトしてご持参いただくか,ご自身のPCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,本研究会の資料をバックナンバーも含めて電子図書館で購読できます.登録されていない方は,是非この機会に研究会に登録してください(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

●研究会幹事団
主査:
 関根聡  (理化学研究所)
幹事:
 木村泰知 (小樽商科大学)
 笹野遼平 (名古屋大学)
 進藤裕之 (奈良先端科学技術大学院大学)
 中澤敏明 (東京大学)
 西川仁  (東京工業大学)
 桝井文人 (北見工業大学)
 横野光  (株式会社富士通研究所)
運営委員:
 内海慶  (株式会社デンソーアイティーラボラトリ)
 内田ゆず (北海学園大学)
 江原遥  (静岡理工科大学)
 大内啓樹 (理化学研究所/東北大学)
 亀甲博貴 (京都大学)
 小林暁雄 (理化学研究所)
 斉藤いつみ(日本電信電話株式会社)
 佐々木稔 (茨城大学)
 貞光九月 (フューチャー株式会社)
 佐藤敏紀 (LINE株式会社)
 須藤克仁 (奈良先端科学技術大学院大学)
 土田正明 (株式会社コトバデザイン)
 成松宏美 (日本電信電話株式会社)
 西田京介 (日本電信電話株式会社)
 羽鳥潤  (株式会社 Preferred Networks)
 牧野拓哉 (株式会社富士通研究所)
 増村亮  (日本電信電話株式会社)
 馬緤美穂 (ヤフー株式会社)
 松林優一郎(東北大学)
 三輪誠  (豊田工業大学)
 森田一  (株式会社富士通研究所)
 谷中瞳  (理化学研究所)
 吉川克正 (株式会社コトバデザイン)
------------------------------