急遽テレワーク導入!の顛末記

「議事録作成にAIを使った自動文字起こしが便利すぎる!! なので操作をもっと簡単にしてみた」――急遽テレワークを導入した中小企業の顛末記(159)

「Google Colab」環境よりももっと簡単に

「Whisper」をもっと手軽に使えるアプリやサービスを使ってみた

 先日は会社で行われたミーティングの議事録を、文字起こしAI「Whisper」を使って作成した。これがかなり便利だったので、引き続き会議や取材の録音データのテキスト化に利用している。

……この記事を書いている時点で、新型コロナが5類に移行されてから144日が過ぎた。

 私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。その中で、今回は「Whisper」の利便性を、同僚にも広めてみたいと思う。

【今回のハイライト】
Colabはハードルが高い
フリーソフトは便利だが…
Webアプリはモデルに制限が

9月25日(月):議事録作成などで、もっと「Whisper」を社内で使ってほしい!

 先日から始まったプロジェクトについて、クライアントとのミーティングで議事録を残すことになった。参加メンバーが持ち回りで作業することになったので、自分の担当回では「Whisper」を使用して、ミーティングの録音データをテキスト化。それを要約したものを提出したのだが、同僚が同じようなものを手作業で作ろうとして、かなり苦労している。

 その同僚に話を聞いてみたところ、議事録を作成するために、一度ミーティングの録画データを最初から全て観直していた。なので、「Whisperを使ってみたら?」と提案してみたのだが……。どうやら、コードが大量に表示された画面にアレルギーを起こしたらしく、あっさりと使うのを諦めてしまった。

「Whisper」ではコードを順に実行させることで、録音データをテキスト化する

 実際には数行のコードを1度入力してしまえば、後はそれを使いまわせるので、作業中はボタンをいくつかクリックするだけで済む。とはいえ、Google Colab環境が「初心者でも使いやすいインターフェイス」とは言えないのも事実。先日にも「Whisper」を布教した同僚から「文字起こしが進まない!」とヘルプ要請を受けたが、テレワーク中だったため相手の作業画面を確認できず、最後まで問題を解決できなかった。

 「Whisper」はかなり便利なツールなので、できれば会社のみんなにも使ってほしい。そのためには、もっと簡単に文字起こしできる環境を整える必要がありそうだ。

9月26日(火):フリーソフト「KoeMill」を使ってみた

 あれから、「Whisper」について調べていたところ、もっと扱いやすいようにとUIを後付けで組み込んだものが見つかった。そのうちの1つが「KoeMill」というフリーソフトだ。

 「KoeMill」では1度初期設定を行ってしまえば、後はファイルを指定して、実行ボタンをクリックするだけで、音声データを「Whisper」に文字起こしさせることが可能。そのインターフェイスは、いわゆるメディアプレイヤー的な外見になっているので、Google Colabのようにコードアレルギーを起こす心配もなさそうだ。

 なお、以前に紹介した「Google Colab」を利用する方法では、モデルデータのダウンロードに時間がかかっていたが、「KoeMill」なら初期設定時にダウンロードしたモデルデータを、次回以降も使いまわすことができた。音声データをアップロードする時間もなくなるので、作業前の準備時間をかなり短縮できるだろう。

作者の公式サイトから「KoeMill」をダウンロード
配布ファイルは7-Zip形式で圧縮されているので、解凍ソフトで解凍する
解凍したファイル内にある「KoeMill_Launcher.exe」を実行。ウィンドウが表示されたら、「A字」などと書かれたアイコンをクリックし、言語に「日本語」を選択する
その隣にあるアイコンをクリックして、使用するモデルを選択。今回は「Large」を指定した
ポップアップウィンドウが表示されたら、「Download」をクリックしてモデルデータをダウンロードすれば、初期設定は終了
画面の右にある「△」のアイコンをクリックして、文字起こしをする音声ファイルを指定
モデルデータのダウンロード時に使用したアイコンの右にある、目の形をしたアイコンをクリックすると文字起こしがスタート。作業中はGPUにかなりの負荷がかかった
ゲージが右まで埋まったら作業完了。文字起こしされたテキストが画面下に表示されるので、「…」アイコン→「Export」と操作して、テキストデータを保存する
音声データが文字起こしされた。適当な位置で改行が挟まれているので読みやすい

 ただ、「KoeMill」ではローカル環境で作業を実行するため、PCのGPUに負荷がかかる。そのため、グラフィックボードを搭載していない会社の古いPCでは、CPU内蔵のGPUとメインメモリに負荷がかかり、他の作業がほとんどできなくなってしまった。作業自体にもかなりの時間がかかってしまったので、自宅PCでの作業を効率化するのには使えても、一部の会社PCでは利用するのは難しそうだ。

会社の古いPCでは、「KoeMill」での作業実行時にGPU(3D)の使用率がほぼ100%になる
CPU内蔵のGPUでは作業にメインメモリを利用するため、そちらの負荷も膨大となり、ほとんど他の作業ができない状態になった

9月27日(水):Webアプリ「Whisper Web」ならどうだろう?

 会社にあるPCの中には「KoeMill」の利用が難しそうなものがあったので、プランBとして「Whisper Web」を試してみることにした。

 これは、ブラウザー内での操作で、「Whisper」を使った文字起こしができるWebアプリ。インターフェイスがかなりシンプルなので、PCがあまり得意ではない同僚にもオススメできそうだ。

サイトにアクセスしたら、「From file」をクリックして音声ファイルを指定。さらに、歯車型のアイコンをクリックする
モデルを選択したら、「Multilingual」のチェックボックスをオンに。「Select the source language」で「Japanese」を指定して、「Close」をクリック
「Transcribe Audio」をクリックすると、音声データの文字起こしがスタート。作業が終わったら、「Export TXT」をクリックして、テキストデータをファイルとして保存する
音声データが「Whisper」によって文字起こしされた

 ただ、「Whisper」では5つのモデルが用意されているのだが、「Whisper Web」ではこのうち「tiny」と「base」しか利用できない。その上に「small」「medium」「large」と、より認識精度の高いモデルがあるのだが、恐らくデータのサイズが大きいので利用できなくしているのだろう。

 そのため、「Whisper Web」が文字起こしをしたテキストでは、文章が一部破綻した箇所があった。とはいえ、導入のハードルはかなり低いので、まずは「Whisper Web」を使って、自動文字起こしの利便性を体感してもらうのはアリかもしれない。

9月28日(木):よりスムーズに使うために、音声やテキストのデータを加工する

 昨日はZoomで行ったミーティングの議事録用に「Whisper Web」を使ったので、録画時に自動で作成されるM4A形式の音声ファイルをアップロードした。ただ、会社のボイスレコーダーは大容量なWAV形式でファイルを保存するため、この録音データをアップロードするには、かなりの時間がかかる。今後はミーティングをオフラインで行う可能性もあるので、録音にボイスレコーダーを使う場合は、アップロード前に音声ファイルをMP3形式などに変換してもよさそうだ。

 また、文字起こしされたテキストデータは、改行なしのひと続きの文字列として出力されるため、読みやすくするためには、ある程度の手直しが必要となる。この作業については、以前にも紹介した「自動改行追加ツール」の利用がオススメだ。

大容量な音声ファイルは、フリーソフトなどを使ってMP3形式などに圧縮しておくと、アップロード時間を短縮できる
「自動改行追加ツール」では、句点の位置で改行を入れてくれる

 文字起こしAIの「Whisper」を使うと、議事録を効率よく作成できる。プロジェクトをよりスムーズに進めるためにも、できればチームのメンバーに、その利用をもっと広めていきたい。

とある中小企業に勤める会社員、飛田氏による体当たりレポート「急遽テレワークを導入した中小企業の顛末記」。バックナンバーもぜひお楽しみください。

飛田九十九