急遽テレワーク導入!の顛末記

「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)

「Whisper」ならボイスレコーダーの録音データなどを無料でテキスト化できる

Googleの「Colaboratory」上でコードを順番に実行するだけでOK

 最近では重要なビデオ会議がある時は、「Texta」という議事録作成支援ツールを使って、その様子をテキスト化するようにしている。ただ、このサービスはリアルタイムの音声しか無料で文字起こししてくれないので、会議前に準備を万端に整えておかなければならない。

 ……この記事を書いている時点で、東京都でまん延防止等重点措置が解除されてから228日が過ぎた。

 私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。その中で、今回は文字起こしAI「Whisper」を使って、録音した音声データの文字起こしに挑戦してみた。

【今回のハイライト】
ボイスレコーダーの録音をテキスト化!
Zoomのミーティング録音をテキスト化!
YouTubeの英語音声もテキスト化!

10月28日(金):まずい、Zoomの録音にしくじった……

 今日は新たなプロジェクトについて、取引先とZoomでビデオ会議をすることに。ただ、前の予定が詰まっていたため、開始時間ギリギリに席に戻ることになった。ミーティングは先方が設定したため、こちらからでは会議の様子を録画することもできない。

 ひとまず、Windows公式の「Xbox Game Bar」アプリを使って、ビデオ会議のウィンドウを動画キャプチャすることはできたが……。「録画中はマイクをオン」の設定のまま録画してしまったため、Zoomの設定でマイクをミュートにしていた時も、咳やキーボードのタイプ音が全部収録されてしまった。

「Xbox Game Bar」では、「録画中はマイクをオン」にするとZoomの設定に関係なく、常にこちらの声やタイプ音などが収録されてしまう

 もちろん、「Texta」の設定も間に合わなかったので、もう文字起こしをすることはできない。やはり、有料プランに契約して、録音データからも文字起こしができるようにすべきだろうか?

10月31日(月):文字起こしAI「Whisper」、その精度と使いやすさは?

 録音データからの文字起こしができるサービスが何かないか? と探していたところ、今年9月に発表された「Whisper」という文字起こしAIが、かなりの高精度で音声データのテキスト化を行ってくれるらしい。それも、以前に「Stable Diffusion」などの画像生成AIを使った時と同じように、Googleの「Colaboratory」上から無料で機能を利用できるようだ。

 さっそく、その機能を試してみたが、導入自体はわずか数分で行うことができた。新たなノートブックを作成したら、「ハードウェア アクセラレータ」の設定を変更。あとは、コード……

---------------------------------------
!pip install git+https://github.com/openai/whisper.git

import whisper

model = whisper.load_model("base")

result = model.transcribe("/content/ファイル名")
print(result["text"])
---------------------------------------

を入力したら準備は完了だ。

「Colaboratory」の公式サイトにアクセスしたら、「ノートブックを新規作成」をクリック
ノートブックが表示されたら、画面右上の「接続」をクリック。「RAM」と「ディスク」のゲージが表示されたら、これをさらにクリックする
「リソース」ウィンドウが表示されたら、一番下の「ランタイムのタイプを変更」をクリック
「ハードウェア アクセラレータ」で「GPU」を選択し、「保存」をクリック
「+コード」をクリックして、表示されたボックスに一つずつコードを入力していく

 録音データをアップロードして、コードを順番に実行していくと、文字起こしされたテキストが表示された。約15分のボイスレコーダーの録音データをテキスト化するのに、かかった時間は1分足らず。このスピード感には正直驚いた。

画面左のフォルダ型のアイコンをクリック。「ファイル」ウィンドウが表示されたら、「セッション ストレージにアップロード」アイコンをクリックし、音声ファイルを選択する。「アップロードした~」のポップアップウィンドウが表示されたら、「OK」をクリック
コードの「ファイル名」の部分を、アップロードしたファイルの名前に変更
あとは、各コードの先頭にある「▶」を順番にクリックして、コードを実行していくと……
全てのコードが実行された後に、文字起こしされたテキストが表示された!
コピーしてテキストエディタに貼り付けると、確かに音声データの内容が文字起こしされていた

 ただ、文字起こしされた文章を確認していると、人名が認識されていなかったり、文章として破綻している個所が多くみられた。「Whisper」には5つのモデルが用意されており、今回はその中で2番目にサイズが小さい「base」を利用したのだが、このモデルでは日本語を正しくテキスト化してくれないらしい。

 そこで、一番サイズの大きなモデルとなる「large」を利用したところ、かなり高い精度で音声データを文字起こしすることができた。これなら、話し手が変わるところで改行を加え、一部の誤記を修正することで、十分に使える議事録になるだろう。

コードの「load_model」を「large」に変更
「large」ではほとんどの文章が破綻せず、固有名詞もかなりの精度でテキスト化された
両者を比較すると、固有名詞などが正しく文字起こしされているのが分かる

11月1日(火):Zoomのミーティングを録音したm4aファイルでもOK

 今日は会社の全体ミーティングの日。その議事録を「Whisper」で作成してみたかったので、今回は会社のアカウントを使って、ミーティングに参加させてもらうことにした。

 といっても、実際にやることと言ったら、会議が始まったところで「レコーディング」ボタンを押すだけ。あとは、ミーティングが終了すると、自動で音声データが作成されるので、これを「Whisper」に読み込ませてみた。

Zoomでミーティングが始まったら、「レコーディング」ボタンをクリック
ミーティングを終了させると、自動で録画/録音データが作成される
あとは、これを「Whisper」に読み込ませれば……

 Zoomではm4a形式で音声ファイルが作成されるが、そのままアップロードしても、「Whisper」で読み込むことができた。昨日の時点で分かっていたことだが、音声の認識精度もかなり高い。適当に改行を挟んだうえで、このデータを会社のNASに保存しておけば、十分に議事録としての役割を果たせそうだ。

11月3日(木):YouTubeの英語プレゼンをテキスト化、そして日本語に

 今日は自宅で原稿を書くことに。その参考となる記者発表会が明日行われるのだが……、会場が海外ということもあって、その内容は英語でプレゼンされるらしい。YouTubeで同時配信されるのだが、日本語の字幕が表示されることはまず期待できないだろう。

 そこで、ふと思いついて、YouTubeに投稿されている英語のプレゼン動画を再生。それを、「♪超録-PC長時間録音機」というフリーソフトで録音し、音声データを「Whisper」に読み込ませてみた。その上で、テキスト化したデータを「Google翻訳」で翻訳させてみる。すると、プレゼンの内容が日本語で表示されたではないか! 英語が達者ではない筆者にとって、この精度で翻訳してくれるのは正直かなり助かる。

入力デバイスで「Microsoft Sound Mapper」を指定して、「録音開始」ボタンをクリック。録音データは「出力先フォルダ」に保存される
YouTubeの音声データが英語のテキストとして保存された
これを翻訳サービスに読み込ませれば、YouTube音声の日本語化に成功!

 テレワークによってビデオ会議が普及する中、議事録を作成する機会が増えているが、「Whisper」を使えばその手間をかなり減らすことができそうだ。ほかにも、電話や講演など、さまざまな用途に利用することができるだろう。

「急遽テレワークを導入した中小企業の顛末記」記事一覧

※編集部より
テレワーク導入から在宅生活の楽しみ方まで!
「在宅で仕事する時代」の情報をまとめたサイト「在宅ライフ」を公開中です。ぜひご活用ください。

飛田九十九