Google Docsが画像中の文字認識を開始~まずは英語など5言語で


 米Googleは22日、Google DocsにPDFや画像ファイルをアップロードするときに、OCR技術を用いて画像中の文字を認識、抽出できる機能を追加したことを発表した。

 Google DocsにPDFファイル、またはJPEG、GIF、PNG画像ファイルをアップロードする際、「ファイルからテキストを Google ドキュメントのドキュメントに変換する」というチェックボックスを選択することによって、画像中のテキストを抽出できるようになる。

 ただし、文書に含まれる体裁、たとえば表組や段組などの情報が失われる可能性があるために、注意が必要だ。

 現時点でサポートする言語は、英語、フランス語、イタリア語、ドイツ語、スペイン語の5言語に限られる。Googleでは他の言語や文字セットにも対応する準備を進めているという。

 Googleではすでに、同じOCR技術を「Google Books」で利用している。そのため、Google Booksで使用されているOCRと同程度の認識精度を期待できると思われる。

 この機能は、Google従業員の20%プロジェクトとして発足し、2009年9月には、Googleの「Documents List Data API」の実験的APIとして利用できるようになっていた。


関連情報

(青木 大我 taiga@scientist.com)

2010/6/23 08:40