ニュース

国立情報学研究所が「不満カテゴリ辞書データ」無償提供、“不満”の投稿300万件から頻出単語まとめ

 大学共同利用機関法人情報・システム研究機構国立情報学研究所(NII)は27日、研究コミュニティ向けに「不満カテゴリ辞書データ」の無償提供を開始した。NIIデータセット共同利用研究開発センターの「情報学研究データリポジトリ(IDR)」を通じて提供する。

 同データは、「不満買取センター」を運営する株式会社不満買取センター(FKC)の不満買取センターに投稿された“不満”から作成されたもの。FKCでは、一般生活者から不満意見を買い取り、企業などにおける製品改善や意志決定に役立てる事業を展開している。今回提供するデータは、2015年3月18日~2016年12月1日までの間に投稿された“不満”のうち約300万件を対象に、特定のカテゴリの不満に頻出する単語をカテゴリ別にまとめたもの。

不満買取センター

 不満カテゴリ辞書データのカテゴリ体系は、総務省の日本標準産業分類を参考にFKCがカスタマイズし、17カテゴリを提供。同データに含まれるのは、「カテゴリ」「単語」「単語のカテゴリ所属スコア」のみで、特定の企業や個人につながる情報や投稿者を特定できるような個人情報は一切含まないとしている。

 FKCでは、これらの“不満”から機械学習のための学習データを作成することで、自動カテゴリ分類のための有用なデータになると考え、一般向けの公開を決めたとしている。