日本データベース学会

Efficient Variable-to-Fixed Length Coding Algorithms for Text Compression

概要PDF

番号 12
氏名 吉田 諭史
フリガナ ヨシダ サトシ
学位名 博士(情報科学)
取得大学 北海道大学
学位授与日 2014年3月25日
指導教員名 喜田 拓也
論文題目(主) Efficient Variable-to-Fixed Length Coding Algorithms for Text Compression
論文題目(副) テキスト圧縮に対する効率よい可変長-固定長符号化アルゴリズム
論文概要等

■論文概要
本学位論文では,VF符号化手法を改善し,その圧縮率,圧縮速度,展開速度の三つの評価基準における性能を向上させる手法について議論する.本論文の第3章では,YamamotoとYokooらによって2001年に提案されたAIVF符号化の改善手法について述べる.本章で提案する手法では,AIVF符号の複数の分節木を一つに統合した木構造を構築し,仮想的に元のAIVF符号と同じ符号化を模倣する.本手法が,自然言語テキスト等に対してAIVF符号よりも高速に動作することを実験的に示す.次に第4章では,既存のVF符号で構築された分節木を洗練する手法について議論する.喜田により2009年に提案されたSTVF符号に対して本手法を適用することで,VF符号でありながら,現在主流であるLempel-Ziv法を土台とした可変長符号による圧縮法と同等の優れた圧縮率が得られることを示す.第5章では,LarssonとMoffatによって2000年に提案された文法圧縮アルゴリズムであるRe-Pairアルゴリズムと固定長符号を組み合わせることでVF符号を実現する手法について議論する.分節木を用いる従来のVF符号の枠組みを超えた本手法により,これまで提案された手法を上回る圧縮率を達成すると同時に,上述したSTVF符号などに比べて数十倍高速な圧縮速度を実現することができる.また,展開速度に関しても,既存のデータ圧縮法の中で最高水準の速度を実現する.第6章では,前章までで述べたVF符号化を大規模なテキストに対して適用する際に必要となる応用技術について議論する.

■学位を取得して
巷では,博士課程に進学すると,就職先が非常に限られるといったことや,学位取得が非常に難しいといったことがささやかれており,博士課程に進学しないほうが良いと考える学生が多いように感じる.しかし,実情は異なるということがわかった.近年の科学技術は非常に複雑で高度になっており,研究開発を行うためには,高い研究スキルや専門性が求められる.博士は,研究活動を通じてこれらを身につけているので,研究開発職における博士への需要は大きい.
また,博士の学位を取得するためには,一定の成果が要求されており,これを無理だと感じている学生が多いようである.確かに一人ですべてをこなすことは難しいかもしれない.もちろん,博士課程の学生は研究を主体的に進めなければならないが,すべてを一人で完成させる必要はない.指導教員や先輩・後輩に頼るという手もある.これらのことから,技術の研究開発職を目指すのであれば就職のことや学位取得のことに臆することなく,博士課程に進学することを薦める.

公開URI http://eprints.lib.hokudai.ac.jp/dspace/index.jsp
アーカイブ