アーカイブ

Web Search Based on Hierarchical Heading-Block Structure Analysis

概要PDF

番号 23
氏名 真鍋 知博
フリガナ マナベ トモヒロ
学位名 博士(情報学)
取得大学 京都大学
学位授与日 2016年3月23日
指導教員名 田島 敬史
論文題目(主) Web Search Based on Hierarchical Heading-Block Structure Analysis
論文題目(副) 階層的な見出しブロック構造の分析に基づくWeb検索
論文概要等

■ 論文概要
本論文ではWebページ中の見出し構造の抽出と応用について論じる.ここで見出しとは文書の一部分の非常に簡潔な要約であり,見出しのついた一部分をブロックと呼ぶ.ブロックは他のブロックを包含することがあり,あるページ中の見出しとブロックは階層的な見出し構造を成す.本論文ではまず,Webページ中の見出し構造を自動抽出する手法を提案する.抽出のためには,ページ中に同じ見た目の見出しが複数存在する場合が多いこと,見出しは人間にとって目立つことの二点に注目する.本論文では続いて,抽出された見出し構造のWeb検索への応用手法を提案する.提案手法はWebページをその中で最高スコアのブロックのみに基づきランキングし,ブロックのスコアリングには祖先ブロックの見出しをメタデータとして考慮する.本論文ではその他三つの応用についても論じる.一つはクエリに対してその意図を特化・明確化するクエリのランキングを返すサブトピックランキングへの応用.一つはWebページ中のキーワードの出現間の論理的関係の強さを測りページのスコアリングのために考慮する近接検索への応用.最後はユーザが検索結果ページ本文を読むか否かの判断に使用するページの簡潔な要約,いわゆるスニペットの生成への応用である.

■ 学位を取得して
田島敬史先生をはじめ,学生時代にお世話になった皆様に,この場をお借りして改めて御礼申し上げます.博士後期課程の三年目まで満足な成果のなかった私が,学位取得まで漕ぎ着けられましたのは,ひとえに研究生活・私生活にわたる皆様のご支援,ご厚誼のおかげです.学位取得は,真の研究生活のスタートとも言えると思います.これからは,一企業の技術者として,アカデミアの皆様に教わった方法論や知識に加え,企業の皆様が積み上げてこられた大規模データをも活用し,科学と技術のますますの発展のために尽くす所存です.今後とも何卒よろしくお願い申し上げます.

公開URI http://dx.doi.org/10.14989/doctor.k19854