ニュース

Chrome 25β公開～音声認識APIで音声によるGmailメール作成も可能に

～多言語、多OS対応でLinuxでも音声認識利用の可能性が

（2013/1/15 09:37）

　米Googleは14日、Google Chrome25ベータ版をChromeベータチャンネルにて公開した。

　このベータ版では、サードパーティーによる拡張機能インストールの制限、セキュリティー機能の強化、開発者向け機能の改良等が盛り込まれている。しかし、Googleが公式ブログで強調した新機能は、新しいWeb Speech APIの搭載だ。

　Googleのエンジニアが公開したデモでは、Google Chromeを使って、長い文章を音声入力し、入力した文章をGmailに転送することができる。音声認識は32の言語に対応しており、日本語、英語、中国語などにも対応する。発表文によると、「この新しいJavaScript APIを使うと、開発者は音声認識をWebアプリに統合できる」と説明している。

　Googleは、Androidに音声認識機能を組み込むほか、iOSアプリでも対応し、モバイル環境では音声認識による検索や、米AppleのSiriにも似た音声認識アシスト機能も提供している。しかしこれまでパソコン用ウェブブラウザーでは、音声検索を提供するにとどまっていた。

　しかし、新しいAPIを使用すれば、長い文書の音声認識による作成、ブラウザーゲームのキャラクターの音声コマンドによる操作、様々なWebアプリの操作が音声で可能になる。

　パソコン用の音声認識機能はソフトウェアにより提供されてきた。国際的には米Nuanceによる「Dragon」シリーズが有名で、Windows、Mac向けのディクテーション可能なソフトが提供されている。また、国内でもアドバンスト・メディア社が「AmiVoice SP2」を発売しているが、Windowsプラットホームに限定されている。米Appleは、OS X Mountain LionでOSにディクテーション機能を搭載して話題となった。しかし、いずれも日本語や英語など限られた言語、限られたプラットフォームが対象だった。

　今回のChromeでは、Windows、Macだけでなく、この分野で最も利用できるソフトが少ないLinux上でも、音声認識を利用できる可能性が出てきた。

　このベータ版ではこれ以外にも多数の改良点がある。Googleは拡張機能をサイレントインストールできる機能を提供していた。これはユーザーに便利な拡張機能をサードパーティーがインストールできるようにするためのものだったが、「サードパーティーにより、広く悪用されてしまった」ため、制限が設けられることになった。Chrome Web Storeから正規にインストールされたものでない拡張機能については、アップデート時に通知画面が表示され、その場でインストールを止めることが可能となっている。

　そのほかにも、新規タブページ実験の継続、WebGLエラーハンドリングの改良、Chrome Developer Toolのアップデート等、様々な改良点が含まれている。

（青木大我 taiga@scientist.com）