学会員メーリングリストアーカイブ (2015年)

[dbjapan] 情報処理学会第223回自然言語処 理研究会参加募集(9/27, 28 開催・ 宮島)


日本データベース学会のみなさま、
(重複して受け取られた場合はご容赦ください)

大阪大学の荒瀬です。
2015年9月27, 28日開催(於・広島経済大学 セミナーハウス成風館)の第223回自然言語処理研究会のプログラムをお送りいたします。
通常の研究発表に加え、Simone Teufel氏による招待講演を予定しております。

・Simone Teufel氏、Proposition-based Summarisation -- a first implementation

研究会への参加に事前申し込みは不要ですが、初日終了後の懇親会は事前申し込みが必要です(申し込み締切:9月16日)。
会場の都合上、参加者を30名までとさせていただいております。参加ご希望の方はぜひお早めにお申し込み下さい。
皆様の参加をお待ちしております!

なお、今後の予定は以下のとおりです。

第224回 2015年12月上旬
 名古屋を予定
第225回 2015年1月
 地方を予定

自然言語処理研究会幹事団
 主査:
   乾健太郎(東北大学)
 幹事:
   荒瀬由紀(大阪大学),岡崎直観(東北大学),木村俊也(ミクシィ),
   小町守(首都大学東京),森信介(京都大学)
 運営委員:
   赤峯享(日本電気),浅原正幸(国立国語研究所),荒牧英治(京都大学),
   石野亜耶(広島経済大学),金丸敏幸(京都大学),
   小林隼人(Yahoo! JAPAN 研究所),古宮嘉那子(茨城大学),新里圭司(楽天),
   鈴木祥子(日本アイ・ビー・エム),数原良彦(リクルートホールディングス),
   高橋哲郎(富士通研究所),高村大也(東京工業大学),堂坂浩二(秋田県立大学),
   徳永拓之(Preferred Infrastructure),西川仁(東京工業大学),
   二宮祟(愛媛大学),橋本力(情報通信機構),藤田早苗(日本電信電話),
   牧野貴樹(グーグル),松崎拓也(名古屋大学),
   ミハウ・プタシンスキ(北見工業大学),宮尾祐介(国立情報学研究所)


----------------------------------------------------------------------
第223回自然言語処理研究会 (SIG-NL)         http://www.nl-ipsj.or.jp/ 
プログラム
----------------------------------------------------------------------

◎ 日程: 2015年 9月27日(日)・28日(月)
◎ 会場: 広島経済大学 セミナーハウス成風館
        〒739-0588 広島県廿日市市宮島町1175-1
        https://goo.gl/ByIwwh
        http://www.hue.ac.jp/life/facilities/training_center.html
◎ 交通アクセス: 広島駅から宮島口駅までJRで約25分
        宮島口から宮島桟橋までフェリーで約10分
        宮島桟橋から会場まで徒歩で約5分

        宮島までのアクセス 参考サイト
        宮島情報BOX アクセス 
                http://www.miyajima-wch.jp/jp/access/index.html 

◎ 懇親会(事前申込締切 9/16): https://goo.gl/9gG5us
会場の都合上、参加者を30名までとさせていただきます。
参加をご希望の方は、ぜひお早めにお申込みください。

◎ 照会先:
研究会に関する照会先: 荒瀬 由紀(大阪大学)
E-mail: arase (at) ist.osaka-u.ac.jp

会場に関する照会先: 石野 亜耶(広島経済大学)
E-mail: ay-ishino (at) hue.ac.jp

======================================================================

プログラム(発表件数14件)

9月27日(日)13:30〜16:45
[13:30〜15:30] 用語抽出・文書比較         [4件]
[15:45〜16:45] 招待講演                   [1件]
[18:00~]      懇親会

9月28日(月)10:30〜16:50
[10:30〜11:50] マルチモーダル             [3件]
[13:20〜14:50] 構文解析                   [3件]
[15:05〜16:35] 応用                       [3件]
[16:35〜16:50] クロージング

======================================================================

9月27日(日)13:30〜16:45

■ 13:30〜15:30用語抽出・文書比較 (4件) ■

座長: 古宮 嘉那子 (茨城大学)

(01) 統計値だけに基づくことを特徴とするキーワード抽出システムの新規実装と評価

手島 亮太, 吉田 光男, 岡部 正幸, 梅村 恭司 (豊橋技術科学大学)

文書からキーワードを抽出する方法の一つに,形態素解析などを用いず反復度と呼ば
れる統計量のみを使った方法がある.この反復度を用いた方法では,キーワードとと
もによく用いられる「の」や「は」などの付属語も併せて,一つのキーワードとして
特定されることが誤抽出の主な原因の一つである.そこで本稿ではキーワードに残り
やすい付属語を特定することで,付属語によるキーワードの誤抽出を減らす抽出手法
を提案する.この手法では,キーワードの前後に位置する語の出現回数を数えた上で,
キーワードの前後には付属語が多く出現するという特性を利用することで,キーワード
に残りやすい付属語の特定を行う.これに併せてキーワード抽出におけるしきい値の
決め方についても議論する.また,実験により提案手法のF値が従来手法に比べ向上
することを確認した.

(02) 部分的アノテーションを利用したCRFによる日本語学習者文の単語分割

塘 優旗, 小町 守 (首都大学東京)

日本語学習支援として,誤り検出,誤り訂正の必要性が高まってきている.そのような
技術の精度向上には,学習者の文に頑健な単語分割が重要である.本稿では,言語学習者
サイトであるLang-8における日本語学習者の日本語文とそれに対しての添削文のペアから
学習者の単語分割に関しての訓練データを作成する.しかし,これらの文対では添削され
るべき部分の一部のみしか訂正されていない場合も多く信頼できないデータも多い.そこで,
おそらく信頼できるであろうとされる添削が行われた部分の文字のみに単語境界のアノテー
ションをすることで学習者コーパスを作成し,アノテーションが曖昧な部分に関しては周辺
尤度を用いて学習を行う条件付き確率場の拡張(坪井ら,2009)を利用することで学習を
行う.学習時に利用する学習者コーパス中の文を学習者文と添削文間での挿入,削除数に
よって制限し,分野適応することで,一般的なテキストの単語分割精度を損なうことなく,
学習者テキストの単語分割精度を向上させることができることを示す.また,その他比較
手法との違いを実際の出力結果を交えて考察する.

(03) 畳み込みニューラルネットワークを用いた複単語表現の解析

進藤 裕之, 松本 裕治 (奈良先端科学技術大学院大学)

複単語表現(Multi-Word Expression)は, 自然言語の意味を理解する上で重要な役割を果たす
が,計算機による英語の言語解析では,依然として単語を基本単位とすることが多い.そこで
本研究では,畳み込みニューラルネットワークを用いて文字,単語,複単語表現の特徴量を
自動的に抽出し,文に含まれる複単語表現の同定および品詞タグ付けを行う手法を提案する.

(04) 政策形成過程における文書自動比較システムに関する応用研究

加藤 大暁, 木下 貴史, 横澤 誠 (京都大学)

文書比較は特許調査,診療文書検索,剽窃の発見等多くのタスクで行なわれている.政策分野
では,各国の主張や法制度の複雑化された関係を比較表の形式にまとめ,視認性を高めた上で
最終的な判断を決定する事が行なわれている.比較表の各要素は,対象文書中の類似文章から
抽出できると考えられる.本研究は,政策形成過程における文書比較システムの開発を目的と
しており,本稿では,政策文書とそれに対する分析手法についてまとめ,複数の文書から類似
文章の抽出を行なうための類似度の検討を行なう.政策に関する文書を対象とし,実際に類似
する文章を抽出を行い評価する.

■ 15:45〜16:45 招待講演 (1件) ■

座長: 乾 健太郎 (東北大学)

(05) Proposition-based Summarisation -- a first implementation

Simone Teufel (Cambridge University/Tokyo Institute of Technology)

I will discuss joint work with my student Yimai Fang. I will present an implementation 
of the text-understanding -based summarisation idea by Kintsch and van Dijk (1978), which 
assumes that summarisation can be simulated by an incremental text-understanding process 
which operates within human memory limitations. The model is "deep", and current technology 
in NLP can of course not capture all that would be needed to fully instantiate the model. 
The model is nevertheless interesting because it allows us to pinpoint the NLP areas where 
improvement can demonstrably result in better summaries -- namely the areas of coreference 
resolution and WSD, as I will demonstrate. The model is also interesting because in an 
extensive evaluation, it beats current models based on lexical semantics, centroid-based 
sentence centrality, and also those based on the random walk model in networks. I will end 
the talk with a demo of the system, and a discussion of which genres lend themselves best 
to this type of research.

■ 18:00〜 懇親会 ■

======================================================================

9月28日(月)10:30〜16:50

■ 10:30〜11:50マルチモーダル (3件) ■

座長: 吉田 光男 (豊橋技術科学大学)

(06) 英文マイクロブログにおける地域固有単語共起にもとづくユーザ位置推定   [ショート発表]

石田 和成 (広島工業大学)

英文マイクロブログにおける地域固有の単語共起にもとづき,情報発信者の位置を
推定する.スマートフォンの普及にともない,ソーシャルメディアのデータ量は
増大を続けている.しかし,位置情報の付加されたデータが全体に占める割合は非常
に小さい.そのため,位置情報付きデータに含まれる単語共起を用いたマイクロ
ブログユーザの位置推定を行い,データへの位置情報付与を試みる.

(07) 「見る」と「聞く」の言語理解の観察

谷田 泰郎, 高椋 琴美 (シナジーマーケティング株式会社)

人の理解はいい加減なものである.本稿では,人の理解や記憶のいい加減さに着目し,
小説の朗読音声を「聞いた」場合とテキストを「見た」場合での記憶の違いを比較し,
言語特徴や音響特徴から機械的に抽出したものと人間が記憶して書き起こしたものを
要約として評価することで,いい加減なコミュニケーションの適用可能性について探る.

(08) 固有表現認識課題におけるアノテータの視線分析

徳永 健伸, 西川 仁 (東京工業大学), 岩倉 友哉, 湯上 伸弘 (富士通研究所)

コーパスに基づく自然言語処理では,与えられた課題に対してどのような素性を利用
するかが重要となる.従来,主に内省によって決めた様々な素性が利用されてきたが,
我々はコーパス作成時のアノテータの振舞いから有効な素性の手掛りを得ることを
目的とし,主にアノテータの視線を中心にデータ収集をおこなってきた.本稿では,
固有表現認識課題を対象とし,アノテーション中のアノテータの視線を収集した結果
とその予備的な分析結果について報告する.

■ 13:20〜14:50構文解析 (3件) ■

座長: 進藤 裕之 (奈良先端科学技術大学院大学)

(09) 構文解析機による英文法解説

山岡 幸高 (九州大学)

英文が読めないとき、辞書で単語の意味を調べれば、それぞれの品詞に対するいくつか
の意味が出てくる。しかし今読んでいる文の単語の品詞が何かまでは教えてくれない。
ましてその文にどういった文法事項が含まれ、文構造がどうなっているかは教えてくれ
ない。そこで自作の構文解析機を用い、品詞を特定し文型を表示し、学校文法に則した
文法解説を加えることを考えた。現在、総合英語参考書の例文程度の簡単な英文に対し
てはほぼ成功しているので、それを紹介したい。

(10) 複合機能語を考慮した英語の依存構造コーパスの構築

加藤 明彦, 進藤 裕之, 松本 裕治 (奈良先端科学技術大学院大学)

複単語表現(MWE)を正しく認識して適切に取り扱う事は, 構文解析や意味解析などの言語
解析で重要である. しかしPenn TreeBankから変換して得られる依存構造では各単語がノード
となっており, MWEに関する考慮は行われていない. そこで本稿では, 機能表現を担うMWE
である複合機能語を考慮した英語の依存構造コーパスを構築した. また, 構築したコーパス
を用いた依存構造解析を行った為, その結果も合わせて報告する.

(11) 機械翻訳の精度を考慮した構文解析器の自己学習

森下 睦, 赤部 晃一, ニュービッグ グラム, 吉野 幸一郎, 中村 哲 (奈良先端科学技術大学院大学)

構文情報を考慮する機械翻訳では,構文解析器の精度が翻訳精度に大きく影響することが知
られている.そこで,構文解析の精度向上を図る手法として,構文解析器の解析結果を学習
データとして用いる自己学習が提案されている.自己学習により機械翻訳に悪影響を及ぼす
解析結果が減少し,翻訳精度が向上することが先行研究により確認されている.しかし,自動
的な構文解析により得られる構文木は必ずしも翻訳精度の向上に寄与するとは限らず,自己
学習した際にモデルにノイズが混入してしまう問題がある.本稿では,自己学習を行う際に
機械翻訳の自動評価尺度を用いて学習データを選択する手法を提案する.これにより,機械
翻訳の精度向上に寄与する学習データのみが選別され,翻訳精度を向上するような自己学習
を行うことができると考えられる.実験により,本手法で構築した構文解析器を用いることで,
最先端の機械翻訳システムの翻訳精度が複数の言語対で有意に向上した.

■ 15:05〜16:35応用 (3件) ■

座長: 二宮 崇 (愛媛大学)

(12) 言語横断質問応答に適した機械翻訳評価尺度の検討

杉山 享志朗, 水上 雅博, ニュービッグ グラム, 吉野 幸一郎, サクティ サクリアニ, 戸田 智基,
中村 哲 (奈良先端科学技術大学院大学)

大規模な知識ベースを用いることで、質問応答システムは幅広い質問に回答することができるようになる。
しかし、知識ベースは主要な言語に限定されているため、機械翻訳などを用いた言語横断によって質問
応答を行う必要がある場合がある。機械翻訳を利用して言語横断を行う際、翻訳性能が質問応答の精度に
影響を与えることは明らかである。一般的な機械翻訳は、人間の評価に相関を持つよう設計された自動評
価尺度によって評価・最適化されているが、そのような尺度が質問応答に適しているとは限らない。本稿
では、複数の翻訳手法を用いて質問応答データセットを作成して質問応答を行い、複数の評価尺度と質問
応答精度との関係を調査する。その結果、質問応答精度に影響を与える翻訳の要因や、質問応答精度と相関
が高い評価尺度を発見した。

(13) 行間を読む健康アドバイス生成システムの実現に向けて

粟村 誉, 岡 照晃 (京都大学), 荒牧 英治 (奈良先端科学技術大学院大学), 河原 大輔, 黒橋 禎夫 (京都大学)

高齢化を迎える先進国では,近い将来,人々が自らの健康管理を能動的に行っていく態度が求められるで
あろう.これを情報処理技術がサポートすることは大きな課題である.これまでに健康管理をサポートする
研究は数多くあるが,それらは多くは定型的なアドバイスを返すものであった.本研究では,ユーザーが
投稿した健康に関するブログ記事に対して,個別化した適切なアドバイスを生成することを目標とする.ここ
でいう,アドバイスの生成は,ブログ記事とアドバイスに対してヘルスコンセプトという抽象的なタグを付与
し,ヘルスコンセプトに紐付けられたアドバイス文を選択/修正することによって行う.予備調査のため,
健康ブログとそれに対するプロフェッショナルのアドバイスを解析すると,21.8%,ブログ記事に陽に記述さ
れていない内容に注目し,アドバイスが行われていることがわかった.このような記述されていない内容に
ついてのアドバイスを行間を読むアドバイスと考え,ヘルスコンセプトに対して適切なデフォルト値を与える
ことで,これを実装した.ブログ記事を用いた実験によって,提案手法は0.155ポイントの精度向上を示し,
有効性を確認したので報告する.

(14) 形状特徴辞書によるメタファーの自動生成

高橋 克郎, 笹田 鉄郎 (京都大学), 舩冨 卓哉 (奈良先端科学技術大学院大学), 森 信介 (京都大学)

メタファーは意味解析において未知情報を表現する上で重要な言語現象のひとつである。抽象的なメタファー
の自動生成の研究として、単語のカテゴライズによる手法が報告されているが、具体的で直感に即したメタ
ファーの生成には至っていない。本稿では、形状特徴辞書の作成と、それを用いたメタファーの自動生成に
ついて報告する。まず、子供が物体の形状比較を行う際に着目していると考えられる形状特徴を名詞にタグ
付けした形状特徴辞書を作成する。次に、各特徴量を比較することで得られる類似度からメタファーを自動
生成し、生成したメタファーについてアンケートによる評価を行う。

■ 16:35〜16:50 クロージング ■