Google Docsが画像中の文字認識を開始～まずは英語など5言語で

　米Googleは22日、Google DocsにPDFや画像ファイルをアップロードするときに、OCR技術を用いて画像中の文字を認識、抽出できる機能を追加したことを発表した。

　Google DocsにPDFファイル、またはJPEG、GIF、PNG画像ファイルをアップロードする際、「ファイルからテキストを Google ドキュメントのドキュメントに変換する」というチェックボックスを選択することによって、画像中のテキストを抽出できるようになる。

　ただし、文書に含まれる体裁、たとえば表組や段組などの情報が失われる可能性があるために、注意が必要だ。

　現時点でサポートする言語は、英語、フランス語、イタリア語、ドイツ語、スペイン語の5言語に限られる。Googleでは他の言語や文字セットにも対応する準備を進めているという。

　Googleではすでに、同じOCR技術を「Google Books」で利用している。そのため、Google Booksで使用されているOCRと同程度の認識精度を期待できると思われる。

　この機能は、Google従業員の20％プロジェクトとして発足し、2009年9月には、Googleの「Documents List Data API」の実験的APIとして利用できるようになっていた。

関連情報

(青木大我 taiga@scientist.com)

2010/6/23 08:40