日本データベース学会

dbjapanメーリングリストアーカイブ(2017年)

[dbjapan] 「不満調査データセット」の辞書データ更新についてのお知らせ


日本データベース学会の皆様
(重複して受け取られた場合はご容赦ください)

国立情報学研究所(NII)の大山と申します。

国立情報学研究所 情報学研究データリポジトリ(IDR)からのお知らせをアナウ
ンスさせて頂きます。

-----------------------------------------------------------------------
提供中の「不満調査データセット」の辞書データを更新しました (2017/11/22)
http://www.nii.ac.jp/news/2017/1122.html
-----------------------------------------------------------------------

 国立情報学研究所 データセット共同利用研究開発センターの情報学研究デー
タリポジトリ(IDR)では,株式会社Insight Tech(旧社名:株式会社不満買取
センター)との提携により2017年2月から提供している「不満調査データセッ
ト」の辞書データを更新し,提供を開始しました。

※更新に伴い,データの名称を「不満カテゴリ辞書データ」から「カテゴリ別不
満特徴語辞書」に変更いたしました。

 今回の更新で,辞書データの作成元となる不満投稿に8ヶ月分のデータが追加
され,また単語を詳細な品詞で区別したことにより,辞書の単語エントリ数が
約2倍に増加しました。


[カテゴリ別不満特徴語辞書(Ver.2)]

Insight Techが運営しているwebサービス「不満買取センター」に2015年3月18日
(サービス開始日)から2017年8月1日までに投稿されたデータのうち,特定カテ
ゴリ下に投稿された約472万件より作成された,カテゴリごとに特徴的な単語を
抽出した辞書データです。

本データに含まれるのは「カテゴリ」「単語」「単語の品詞情報」「単語のカテ
ゴリ所属スコア」だけであり,特定の個人につながる情報は一切含まれていません。

提供するカテゴリは不満買取センターで運用されているカテゴリおよびサブカテ
ゴリで,総務省の「日本標準産業分類」を参考に株式会社Insight Techがカスタ
マイズした体系であり,約190万単語について,TF-IDF,PMI(自己相互情報
量),SOA の3種類の特徴量抽出手法により算出されたスコアがついています。


【前回の提供版】
 抽出対象期間 :2015年3月18日−2016年12月1日
 対象投稿数  :約300万件
 単語エントリ数:約95万件

【今回の更新版】
 抽出対象期間 :2015年3月18日−2017年8月1日
 対象投稿数  :約470万件
 単語エントリ数:約190万件


 提供データは今後も増やしていく予定です。研究に広くご活用いただければ
幸いです。

 → 情報学研究データリポジトリ カテゴリ別不満特徴語辞書
   http://www.nii.ac.jp/dsc/idr/fuman/fuman_dict.html

--------------------------------------------------------------------

その他提供中のデータセットについては次のWebサイトをご覧ください。

国立情報学研究所 情報学研究データリポジトリ
http://www.nii.ac.jp/dsc/idr/index.html


<今年も開催!>
IDRユーザフォーラム2017 【12月4日(月)@NII】
http://www.nii.ac.jp/dsc/idr/userforum/index.html

-- 
================================================
国立情報学研究所 IDR事務局(大山敬三)
〒101-8430 東京都千代田区一ツ橋2-1-2
URL : http://www.nii.ac.jp/cscenter/idr/
E-Mail : idr [at] nii.ac.jp
Facebook : https://www.facebook.com/NIIIDR
Twitter : @NIIIDR
================================================