急遽テレワーク導入！の顛末記

「議事録作成にAIを使った自動文字起こしが便利すぎる!! なので操作をもっと簡単にしてみた」――急遽テレワークを導入した中小企業の顛末記（159）

「Google Colab」環境よりももっと簡単に

飛田九十九

2023年10月2日 07:00

「Whisper」をもっと手軽に使えるアプリやサービスを使ってみた

　先日は会社で行われたミーティングの議事録を、文字起こしAI「Whisper」を使って作成した。これがかなり便利だったので、引き続き会議や取材の録音データのテキスト化に利用している。

……この記事を書いている時点で、新型コロナが5類に移行されてから144日が過ぎた。

　私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。その中で、今回は「Whisper」の利便性を、同僚にも広めてみたいと思う。

【今回のハイライト】

Colabはハードルが高い

フリーソフトは便利だが…

Webアプリはモデルに制限が

9月25日（月）：議事録作成などで、もっと「Whisper」を社内で使ってほしい！

　先日から始まったプロジェクトについて、クライアントとのミーティングで議事録を残すことになった。参加メンバーが持ち回りで作業することになったので、自分の担当回では「Whisper」を使用して、ミーティングの録音データをテキスト化。それを要約したものを提出したのだが、同僚が同じようなものを手作業で作ろうとして、かなり苦労している。

　その同僚に話を聞いてみたところ、議事録を作成するために、一度ミーティングの録画データを最初から全て観直していた。なので、「Whisperを使ってみたら？」と提案してみたのだが……。どうやら、コードが大量に表示された画面にアレルギーを起こしたらしく、あっさりと使うのを諦めてしまった。

「Whisper」ではコードを順に実行させることで、録音データをテキスト化する

　実際には数行のコードを1度入力してしまえば、後はそれを使いまわせるので、作業中はボタンをいくつかクリックするだけで済む。とはいえ、Google Colab環境が「初心者でも使いやすいインターフェイス」とは言えないのも事実。先日にも「Whisper」を布教した同僚から「文字起こしが進まない！」とヘルプ要請を受けたが、テレワーク中だったため相手の作業画面を確認できず、最後まで問題を解決できなかった。

　「Whisper」はかなり便利なツールなので、できれば会社のみんなにも使ってほしい。そのためには、もっと簡単に文字起こしできる環境を整える必要がありそうだ。

9月26日（火）：フリーソフト「KoeMill」を使ってみた

　あれから、「Whisper」について調べていたところ、もっと扱いやすいようにとUIを後付けで組み込んだものが見つかった。そのうちの1つが「KoeMill」というフリーソフトだ。

　「KoeMill」では1度初期設定を行ってしまえば、後はファイルを指定して、実行ボタンをクリックするだけで、音声データを「Whisper」に文字起こしさせることが可能。そのインターフェイスは、いわゆるメディアプレイヤー的な外見になっているので、Google Colabのようにコードアレルギーを起こす心配もなさそうだ。

　なお、以前に紹介した「Google Colab」を利用する方法では、モデルデータのダウンロードに時間がかかっていたが、「KoeMill」なら初期設定時にダウンロードしたモデルデータを、次回以降も使いまわすことができた。音声データをアップロードする時間もなくなるので、作業前の準備時間をかなり短縮できるだろう。

作者の公式サイトから「KoeMill」をダウンロード

配布ファイルは7-Zip形式で圧縮されているので、解凍ソフトで解凍する

解凍したファイル内にある「KoeMill_Launcher.exe」を実行。ウィンドウが表示されたら、「A字」などと書かれたアイコンをクリックし、言語に「日本語」を選択する

その隣にあるアイコンをクリックして、使用するモデルを選択。今回は「Large」を指定した

ポップアップウィンドウが表示されたら、「Download」をクリックしてモデルデータをダウンロードすれば、初期設定は終了

画面の右にある「△」のアイコンをクリックして、文字起こしをする音声ファイルを指定

モデルデータのダウンロード時に使用したアイコンの右にある、目の形をしたアイコンをクリックすると文字起こしがスタート。作業中はGPUにかなりの負荷がかかった

ゲージが右まで埋まったら作業完了。文字起こしされたテキストが画面下に表示されるので、「…」アイコン→「Export」と操作して、テキストデータを保存する

音声データが文字起こしされた。適当な位置で改行が挟まれているので読みやすい

　ただ、「KoeMill」ではローカル環境で作業を実行するため、PCのGPUに負荷がかかる。そのため、グラフィックボードを搭載していない会社の古いPCでは、CPU内蔵のGPUとメインメモリに負荷がかかり、他の作業がほとんどできなくなってしまった。作業自体にもかなりの時間がかかってしまったので、自宅PCでの作業を効率化するのには使えても、一部の会社PCでは利用するのは難しそうだ。

会社の古いPCでは、「KoeMill」での作業実行時にGPU（3D）の使用率がほぼ100%になる

CPU内蔵のGPUでは作業にメインメモリを利用するため、そちらの負荷も膨大となり、ほとんど他の作業ができない状態になった

9月27日（水）：Webアプリ「Whisper Web」ならどうだろう？

　会社にあるPCの中には「KoeMill」の利用が難しそうなものがあったので、プランBとして「Whisper Web」を試してみることにした。

　これは、ブラウザー内での操作で、「Whisper」を使った文字起こしができるWebアプリ。インターフェイスがかなりシンプルなので、PCがあまり得意ではない同僚にもオススメできそうだ。

サイトにアクセスしたら、「From file」をクリックして音声ファイルを指定。さらに、歯車型のアイコンをクリックする

モデルを選択したら、「Multilingual」のチェックボックスをオンに。「Select the source language」で「Japanese」を指定して、「Close」をクリック

「Transcribe Audio」をクリックすると、音声データの文字起こしがスタート。作業が終わったら、「Export TXT」をクリックして、テキストデータをファイルとして保存する

音声データが「Whisper」によって文字起こしされた

　ただ、「Whisper」では5つのモデルが用意されているのだが、「Whisper Web」ではこのうち「tiny」と「base」しか利用できない。その上に「small」「medium」「large」と、より認識精度の高いモデルがあるのだが、恐らくデータのサイズが大きいので利用できなくしているのだろう。

　そのため、「Whisper Web」が文字起こしをしたテキストでは、文章が一部破綻した箇所があった。とはいえ、導入のハードルはかなり低いので、まずは「Whisper Web」を使って、自動文字起こしの利便性を体感してもらうのはアリかもしれない。

9月28日（木）：よりスムーズに使うために、音声やテキストのデータを加工する

　昨日はZoomで行ったミーティングの議事録用に「Whisper Web」を使ったので、録画時に自動で作成されるM4A形式の音声ファイルをアップロードした。ただ、会社のボイスレコーダーは大容量なWAV形式でファイルを保存するため、この録音データをアップロードするには、かなりの時間がかかる。今後はミーティングをオフラインで行う可能性もあるので、録音にボイスレコーダーを使う場合は、アップロード前に音声ファイルをMP3形式などに変換してもよさそうだ。

　また、文字起こしされたテキストデータは、改行なしのひと続きの文字列として出力されるため、読みやすくするためには、ある程度の手直しが必要となる。この作業については、以前にも紹介した「自動改行追加ツール」の利用がオススメだ。

大容量な音声ファイルは、フリーソフトなどを使ってMP3形式などに圧縮しておくと、アップロード時間を短縮できる

「自動改行追加ツール」では、句点の位置で改行を入れてくれる

　文字起こしAIの「Whisper」を使うと、議事録を効率よく作成できる。プロジェクトをよりスムーズに進めるためにも、できればチームのメンバーに、その利用をもっと広めていきたい。

とある中小企業に勤める会社員、飛田氏による体当たりレポート「急遽テレワークを導入した中小企業の顛末記」。バックナンバーもぜひお楽しみください。

飛田九十九