ニュース
NTT研究所の日本語解析技術API公開、「語句類似度算出」「ひらがな化」など4種
(2014/12/4 12:31)
NTTレゾナント株式会社は3日、日本語解析技術に関するAPIを「gooラボ」で公開した。同技術は、NTT研究所が開発し「goo」で利用してきたもの。
公開するAPIは、ビッグデータ解析などで必須となる要素技術である「語句類似度算出」「ひらがな化」「固有表現抽出」「形態素解析」の4種類。これらを活用することによって、ビッグデータが日本語で書かれた文章の場合、文字列の集計だけでなく、書かれている内容に基づいた分析が可能になるという。
語句類似度算出は、2つのキーワードに対して、構成単語や音素の情報を踏まえて、その類似度合いを算出するAPI。「トーキョー」と「東京」、「phablet」と「ファブレット」といった、似通った発音を持つ違う表記の語句を、類似度合いにより同じ語句とみなすことができる。
また、固有表現抽出では、文章から人名、地名、組織名などを抽出可能。「鈴木さんがきょうの9時30分に横浜に行きます」という文字列からは、人名として「鈴木」、地名として「横浜」、日付表現として「きょう」、時刻表言として「9時30分」がそれぞれ抽出される。抽出されたキーワードから、SNS上で最近話題になっているスポットを発見するといった分析が可能になるとしている。
ひらがな化は、漢字混じりで書かれた文字列をひらがな、カタカナに変換するAPIで、子供向けコンテンツの作成に利用できる。形態素解析は、文字列を形態素と呼ばれる単位に分割できる。「この商品が大好きです」という文字列から、「この」「商品」「が」「大好き」「です」と分割することで、製品のレビュー記事から、どのような表現で評価されているのかといった分析が可能になるとしている。
なお、APIを公開した背景として、gooの持つウェブ検索にかかわる技術・ノウハウや、NTT研究所の持つ先端技術が、自社コンテンツを提供する他の企業や、ビッグデータ解析技術を求める企業において活用が見込めるためだという。同社では、今回のAPI公開を第1弾としており、gooの持つ技術・ノウハウを順次公開していくとしている。