ニュース

NIIとSansan、名刺のデータセット無償提供、画像処理や機械学習の研究に

 大学共同利用機関法人情報・システム研究機構国立情報学研究所(NII)とSansan株式会社は23日、Sansanの所有する名刺情報のサンプルデータを「Sansanデータセット」として研究コミュニティに無償提供すると発表した。NIIのデータセット共同利用研究開発センターの情報学研究データリポジトリ(IDR)を通じて提供する。

 提供するデータは、Sansanが2016年に実施したデータサイエンティスト向け分析コンテスト「人工知能は名刺をどこまで解読できるのか」で使用したサンプル名刺のスキャンデータ3841枚分。架空の会社名、名前、役職、郵便番号を含む住所、電話番号、FAX番号、携帯電話番号、電子メールアドレス、ウェブサイトのURLなどの情報を記載しており、特定の企業や個人につながる情報、人物を特定できる個人情報は含まない。

サンプル名刺データの画像例

 Sansanでは、通常のドキュメントに比べ非定型でフォントやフォントサイズ、レイアウトなどのフォーマットが定められていない名刺を年間数億枚正確にデータ化する必要があるため、画像処理、機械学習などの研究に取り組み、独自開発した名刺データ化システムと入力オペレーションを組み合わせたデータベースを構築している。

 NIIを通じてサンプル名刺データを広く研究コミュニティに提供することで、画像処理や機械学習の研究の発展に貢献できると期待している。