急遽テレワーク導入！の顛末記

「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記（173）

操作性や認識精度などが最も優秀なツールはどれ？

飛田九十九

2024年1月29日 07:00

録音データを元に、「Zoom」や「CLOVA NOTE」などのツールを使って文字起こしを行ってみた

　先日は文字起こしAI「Whisper」と連携するボイスレコーダーを使ってみたが、その手軽な使い勝手がかなり気に入ってしまった。「Whisper」は無料で使えるのが嬉しいところだが、Google Colab上で使おうとすると、操作がちょっと面倒になる。

　……この記事を書いている時点で、新型コロナが5類に移行されて263日が過ぎた。

　私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。その中で今回は無料で使える文字起こしツールを、いろいろと比較してみた。

【今回のハイライト】

仮想デバイスを使って……

録音データをZoomで文字起こし

ほかの無料ツールも使ってみた

1月22日（月）：Zoomの文字起こし機能を使ってみる

　今日はクライアントとZoomでミーティングを行うが、その議事録を作成してほしいと頼まれた。いつもなら、録音データを「Whisper」に読み込ませるところだが、Zoomには標準で文字起こし機能が用意されている。まだ、その機能を試したことがなかったので、この機会に利用してみることにした。

　Zoomの文字起こし機能を利用するには、まず公式サイトに利用するアカウントでログインして、機能を有効にする必要がある。これによりミーティング中の音声を字幕として表示できるようになるし、そのログをテキストデータとして保存することも可能だ。

Zoomの公式サイトにログインして、アカウントの設定画面で「設定」にある「自動字幕」と「完全な文字起こし」を有効にする

ミーティング画面下のバーから、「全文の文字起こしを表示」を選択することで、音声の文字起こしが可能となった

　Zoomの機能を利用することで、いちいち録音データを「Whisper」で文字起こしさせる必要がなくなった。ミーティングの参加者による文字起こしデータの保存を許可することもできるので、機能を常時有効にしておけば、別の人が議事録を作成する際にも手間を省けるだろう。

1月23日（火）：録音データを元にZoomに文字起こしさせる方法は？

　昨日はミーティング中の音声をZoomに文字起こしさせたが、このマイク入力にボイスレコーダーなどの録音データを聞き取らせれば、文字起こしツールとして使えるのではないだろうか？

　ということで、以前に利用した「VB-CABLE Virtual Audio Device.」というフリーソフトを使って、PCの音声出力をZoomのマイク入力に繋げてみた。これはサウンドカードを仮想化したようなフリーソフトで、PCの音声の出力先をこの仮想デバイスに接続。さらに、Zoomのマイク入力に同デバイスを指定することで、PCで鳴っている音声が、仮想デバイスを経由して、Zoomのミーティング内で再生されるようになる。

ソフトをインストールすると、「CABLE Input（VB-Audio Virtual Cable）」「CABLE Output（VB-Audio Virtual Cable）」という音声入出力デバイスが、各1個追加される

Windowsの「設定」画面で「システム」→「サウンド」と画面を開き、「出力」と「入力」にそれぞれ先ほど追加されたデバイスを指定

Zoomのマイクとスピーカーも、それぞれ追加されたデバイスに設定すると……

PCで鳴っているあらゆる音声がミーティング上に流れ、文字起こしされるようになった！

　この状態でPCのプレイヤーソフトで音声を再生すると、それがZoomで文字起こしされるようになった。ただ、この設定を行うと、プレイヤーソフトで再生している音声が仮想デバイスに出力されるため、PCのスピーカーでは聴くことができない。このため、PCで鳴っている音をスピーカーで聞きつつ、仮想デバイスにも送るためには、Windowsでの設定の変更が必要だ。

コントロールパネルで「サウンド」画面を開き、「録音」タブから「CABLE Output」のプロパティを表示。「聴く」タブで「このデバイスを聴く」のチェックをオンにすると、再生中の音声がスピーカーでも聞けるようになる

1月24日（水）：無料で文字起こしができるツールを探してみた！

　昨日はZoomの機能を使って、PCのプレイヤーソフトで再生している録音データを文字起こししてみた。ただ、ビデオ会議の音声については、他にも無料で文字起こしができるサービスがあるので、その使い勝手を比較してみた。

　今回テストに利用したのは、以下の4つのサービスだ。

●Sloos

マイクの音声を認識して、それをリアルタイムで文字起こしする。URLを共有することで、複数の参加者の音声をまとめて文字起こしすることも可能

●User Local 音声議事録システム

基本的な使い方は「Sloos」とほぼ同様。使用頻度の高い単語を表示するなど、ユニークな機能も用意されている

●CLOVA NOTE

アップロードしたファイルを元に文字起こしを実行。さらに、発言者を認識して、それぞれにアイコンで表示してくれる

●SecureMemo

「OpenAI Whisperをベースに独自開発」したという音声認識AIを使用。セキュアな環境での利用に向いているとしている

　このうち、「Sloos」と「User Local音声議事録システム」はZoomなどのビデオ会議サービスと併用することで、リアルタイムでの文字起こしが可能。「VB-CABLE Virtual Audio Device.」を使えば、プレイヤーソフトで再生している録音データを、マイク入力と認識させることもできる。

　一方、「CLOVA NOTE」と「SecureMemo」はアップロードした音声ファイルを文字起こしするという、どちらかというと「Whisper」に近いサービスとなっている。このうち、「CLOVA NOTE」は1ファイル180分、月300分まで無料で利用することが可能。「SecureMemo」はベータ版ということで、現時点では無料で利用できるが、正式版では有料での提供となる可能性がありそうだ。

　なお、今回のように録音データを元に文字起こしを行うのであれば、「Sloos」と「User Local音声議事録システム」は、作業に収録分数と同じ時間がかかってしまうのが難点と言えるだろう。その点、「CLOVA NOTE」や「SecureMemo」はファイルのアップロードが終れば、文字起こしにはさほど時間がかからない。何よりインターフェイスが「Whisper」より使いやすいので、ITリテラシーの高くない人にもオススメできるツールと言えそうだ。

1月25日（木）：認識精度を比較してみると、ツールごとに特徴があった

　無料で利用できる文字起こしツールをいくつか試してみたが、操作性においては「CLOVA NOTE」や「SecureMemoCloud」がほかのツールより優秀だと感じた。ただ、ここで気になるのが、「最も正確に文字起こしできるツールはどれか？」ということ。

　そこで、以前INTERNET Watchで行った対談動画の音声データを元に、文字起こしの結果を比較してみたところ、「Zoom」と「CLOVA NOTE」の認識精度については、筆者がよく使っている「Whisper」とそこまで大きな差はなかった。ただ、「Zoom」は話の途中で改行されているような部分が目立ち、それが読みにくさに繋がっている。また、「CLOVA NOTE」は話者を認識しているので、改行位置は適切なのだが、「えー」や「あの」といった言葉の端々までも文字起こしされているのが気になった。

　一方、「Sloos」と「User Local音声議事録システム」については、単語レベルで誤認している箇所が目立つ。さらに、文の末尾に句点が入力されないため、読みにくさを感じるところがあった。

　なお、「SecureMemo」はWhisperをベースとした音声認識AIを利用しているというだけあり、認識精度はWhisperとほぼ変わらなかった。発話者の識別もしてくれるので、使い勝手はかなり良い。

Zoomによる文字起こしでは、話をぶった切るようなタイミングで改行が行われていることが結構あった

「CLOVA NOTE」では、「えー」や「あの」といった部分まで文字起こしされているのが気になる……

　ということで、無料で使える文字起こし機能をいろいろ使ってみたが、総合力では「SecureMemo」や「CLOVA NOTE」が一歩リードしている印象だった。操作方法はファイルをアップロードするだけと単純で、発話者を識別してくれるのもポイントが高い。

　ただ、「SecureMemo」はベータ版であるが故の無料提供、「CLOVA NOTE」は時間制限があることを考えると、無料で使い続けるにはいくつかのツールを使い分ける必要がありそうだ。「Sloos」と「User Local音声議事録システム」も後から手直しすれば、議事録のたたき台などには使えるレベルなので、興味がある人は一度試してみてはいかがだろうか？

とある中小企業に勤める会社員、飛田氏による体当たりレポート「急遽テレワークを導入した中小企業の顛末記」。バックナンバーもぜひお楽しみください。

飛田九十九