情報通信研究機構(NICT)と沖電気は21日、Webページから新語を抽出する技術を共同開発したと発表した。
今回開発した技術は、収集したWebページに対して形態素解析を行ない、文中の形態素列の頻度と、その前後の形態素の異なり数とを指標とした関数を用いて用語を抽出する。この技術を用いることにより、名詞だけから構成される用語だけでなく、助詞などを含む用語も獲得できるという。また、文章から固有表現と呼ばれる人名、地名、組織名、数値表現などを表わす部分を取り出し、それがどのような固有表現であるかを決定することや、既存辞書とのマッチングにより用語を構成する形態素にも素性を割り当て、その情報を利用して用語全体の属性を判別する。
さらに、実システムへの導入を考慮して処理を高速化しており、テキストで200MBの収集済みのWebページを平均1日で処理する。これにより、最新用語を高速にWebページから獲得、判別することが可能になるとしている。
NICTと沖電気では今後もこの技術の向上を目指して共同研究を継続する。また、沖電気では、Webページから情報を収集しメールで送付するサービス「MAILPIA」と、三菱総合研究所と共同開発中の検索エンジン「Bluesilk」に、今回の技術の導入を進める予定としている。
関連情報
■URL
ニュースリリース
http://www.oki.com/jp/Home/JIS/New/OKI-News/2005/07/z05039.html
( 三柳英樹 )
2005/07/21 16:03
- ページの先頭へ-
|