記事検索

声で文字入力するソフト「AmiVoice」の最新版、書き起こしの支援機能を追加


 株式会社アドバンスト・メディアは、音声入力ソフトの新バージョン「AmiVoice SP2」を11月30日に発売する。Windows 8/7/Vista/XP(SP2以上)に対応しており、USBヘッドセットマイク付きパッケージ版が2万6040円、マイク無しパッケージ版が2万790円、ダウンロード版が1万5540円など。

 ユーザーの声を登録・学習させる事前準備不要で使い始めることができ、発話を自動学習する機能などにより使い込むほど認識精度が向上するという特徴は、前バージョンの「AmiVoice SP」から継承。さらに今回の新バージョンでは、音声認識率の向上と操作性の向上を図るとともに、インタビュー内容などをテキストに書き起こす作業を支援する専用ソフト「書起しエディター」を追加した。

「AmiVoice SP2」のパッケージ 新たに搭載した「書起しエディター」

辞書は語彙数を5倍に増強、ユーザーが書いた文章から学習も可能

 音声認識率の向上は、言語モデルや音響モデル、辞書の増強を含む音声認識エンジンの強化によるもの。このうち辞書については、語彙数を前バージョンの約5倍となる20万語に増強した。例えば、関取の名前などの固有名詞や、「テザリング」「iPS細胞」などの最新用語も認識できるとしている。

 また、マスター辞書に収録されていない“未知語”を既存のテキストファイルから検出する「テキスト学習ウィザード」機能を新たに搭載した。検出された語に読みを振ってテキスト学習を実行することで、ユーザー辞書に登録される。前後の文脈情報(文章スタイル)も反映するという。AmiVoice SP2の使用用途に合わせて、ユーザーが過去に書いた文章によって辞書を鍛え上げることができ、さらなる認識率向上が図れるとしている。

 なお、IME(日本語入力ソフト)のユーザー辞書に登録している単語については、CSVなど汎用フォーマットにエクスポートしたデータをインポートする機能が従来より搭載されているという。

新旧製品の認識比較の例

テキスト上が“未知語”登録前、下が登録後の音声認識結果。「摂取」「下肢」「筋力」などを認識できるようになったのがわかる

数字のみ、登録単語のみ認識するモードを追加

 実際に音声入力する際には、AmiVoice SP2のツールバーで、使用する辞書を「標準(小)」「標準(大)」「政治経済」「数字認識」「登録単語認識」の5種類から切り替えることが可能だ。

 「標準(小)」は前バージョンと同じ約4万語を収録、「標準(大)」が最大20万語となっている。語彙数が多い方が認識率は上がるが、その分、辞書検索処理のタイムラグにわずかながら差が出るという。前バージョンからの“サクサク感”は変わらないとしているが、PCに積んでいるメモリ容量によっては気になる可能性もあるため、その場合は辞書検索処理の軽い「標準(小)」を選択する必要がある。「政治経済」は、新聞の文章に適した辞書。

 「数字認識」「登録単語認識」は、新バージョンの新機能だ。「数字認識」は数字のみを認識する辞書で、例えば表計算ソフトのデータ入力など数字の入力のみを行う場合に使用する。AmiVoiceでは単語を前後の文脈から判断しているため、通常の文章用の辞書では、短い単語だけを正確に変換できない。これに対して「数字認識」では、例えば「に」としゃべれば数字の「2」、「じゅう」であれば「10」というように判断される。一方、「登録単語認識」は、ユーザーが登録した単語のみを認識するものだ。

音声コマンドを拡張可能、ソフトの起動やファイル操作も声で

 操作性の向上については、既存の音声コマンドに加えて、任意のキー入力をユーザーが音声コマンドとして作成することが可能になった。

 例えば表計算ソフトにおいて、「みぎにいどう」と話すことで、入力セルを右に1つ移動するキー操作を音声コマンドで行えるといった具合だ。Ctrl、Shift、Altキーなどと組み合わせたショートカットキー操作にも対応する。AmiVoiceの音声認識機能自体の開始から、表計算ソフトの起動、データ入力、上書きファイル保存、表計算ソフトの終了、音声認識機能の終了――といった一連の作業を、音声コマンドでハンズフリーで行えるとしている。

音声コマンドの作成例

書き起こしテキストと音声ファイルの突き合わせがスムーズに

 「書起しエディター」は、インタビューなどの音声ファイルをテキストに書き起こす作業時間を短縮したい、音声認識結果の編集機能が欲しい――といった、AmiVoice SP既存ユーザーからの声に応える専用エティターソフトだという。

 「書起しエディター」に音声ファイル(MP3/WAV/WMA)を読み込んで音声認識させると、ウィンドウの上部に音声の波形、下部に音声認識結果のテキストが表示される。その後、音声を再生すると、波形ウィンドウで再生位置が示され、テキストウィンドウもこれに連動して該当個所が表示される。再生/停止、3秒前/10秒後といった巻き戻し/早送り、再生速度の調整もキーボードショートカットで行える。

 ユーザーは、「書起しエディター」上で元の音声ファイルを聞きながら、音声認識結果のテキストの間違いなどを修正していけるわけだ。ICレコーダーやPCの音声再生ソフトで何度も再生/停止したり巻き戻しする操作を行いながら、ワープロソフトで文字入力する作業のわずらわしさを解消するとしている。

 ただし、AmiVoice SP2で音声ファイルから自動認識できるのは、ICレコーダーの口述モードを使い、口元とマイクの距離が5cm以内で、はっきりとした音声で録音してあることが条件。すなわち、話者からマイクまでが遠い講演会や、複数人数による会議などでは認識できない。

 アドバンスト・メディアでは、こうした音声のテキスト化についても「書起しエディター」が活用できるとしている。再生した音声をユーザーが耳で聞き、そのまま同じ内容をはっきりと復唱することで、自動ではないものの音声認識によりテキスト化作業が行えるとしている。

「書起しエディター」の機能

次の段階はクラウド化、巨大なクラウド辞書で認識率向上など

 アドバンスト・メディアの音声認識エンジン/ソリューションは、医療分野で国内の3830以上の施設に導入実績があるほか、55の地方自治体および27の学校・企業・団体では議事録作成支援システムとして導入しているという。さらに最近ではコールセンターへのラインセス導入が増加するとともに、最もホットなのはモバイル事業だとしている。

 auが11月1日から提供を開始した、声でスマートフォンを操作できるアプリ「おはなしアシスタント」で採用されたほか、すでにヤフーの「Yahoo!検索」「音声アシスト」「コエカタマリン」「Y!ロコ乗換」などの各種アプリにおける音声認識機能で採用されている。

 これら現在はオンプレミスあるいは個人向けではローカルPCにインストールするソフトとして提供しているAmiVoiceの各種サービス・機能を、今後はクラウドプラットフォームに移行すべく準備しているという。例えば、新製品のAmiVoice SP2は現時点ではWindows PCにインストールするソフトだが、次の段階ではこれをクラウド化。クラウド上で提供する巨大辞書でさらなる認識率向上を実現するほか、マルチデバイス対応など、音声認識の各種サービス・機能をつなぐポータル製品として進化させたいとしている。

アドバンスト・メディアが目指すAmiVoiceのクラウドプラットフォーム化

アドバンスト・メディア取締役事業本部長の堤満氏 アドバンスト・メディア医療・公共事業部 シニアセールスマネージャーの樋爪和夫氏

アドバンスト・メディアが今後の商品化に向けて開発中だというバーチャルキャラクターの「あおい」さん。11月2日に行われた「AmiVoice SP2」記者発表会の冒頭に登場した。司会者の話しかけに答えるかたちで、発表会の進行予定などを合成音声で回答したが、今回の新製品と直接関係はないらしい




関連情報


(永沢 茂)

2012/11/5 06:00