急遽テレワーク導入!の顛末記
「議事録作成にAIを使った自動文字起こしが便利すぎる!! なので操作をもっと簡単にしてみた」――急遽テレワークを導入した中小企業の顛末記(159)
「Google Colab」環境よりももっと簡単に
2023年10月2日 07:00
先日は会社で行われたミーティングの議事録を、文字起こしAI「Whisper」を使って作成した。これがかなり便利だったので、引き続き会議や取材の録音データのテキスト化に利用している。
……この記事を書いている時点で、新型コロナが5類に移行されてから144日が過ぎた。
私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。その中で、今回は「Whisper」の利便性を、同僚にも広めてみたいと思う。
9月25日(月):議事録作成などで、もっと「Whisper」を社内で使ってほしい!
先日から始まったプロジェクトについて、クライアントとのミーティングで議事録を残すことになった。参加メンバーが持ち回りで作業することになったので、自分の担当回では「Whisper」を使用して、ミーティングの録音データをテキスト化。それを要約したものを提出したのだが、同僚が同じようなものを手作業で作ろうとして、かなり苦労している。
その同僚に話を聞いてみたところ、議事録を作成するために、一度ミーティングの録画データを最初から全て観直していた。なので、「Whisperを使ってみたら?」と提案してみたのだが……。どうやら、コードが大量に表示された画面にアレルギーを起こしたらしく、あっさりと使うのを諦めてしまった。
実際には数行のコードを1度入力してしまえば、後はそれを使いまわせるので、作業中はボタンをいくつかクリックするだけで済む。とはいえ、Google Colab環境が「初心者でも使いやすいインターフェイス」とは言えないのも事実。先日にも「Whisper」を布教した同僚から「文字起こしが進まない!」とヘルプ要請を受けたが、テレワーク中だったため相手の作業画面を確認できず、最後まで問題を解決できなかった。
「Whisper」はかなり便利なツールなので、できれば会社のみんなにも使ってほしい。そのためには、もっと簡単に文字起こしできる環境を整える必要がありそうだ。
9月26日(火):フリーソフト「KoeMill」を使ってみた
あれから、「Whisper」について調べていたところ、もっと扱いやすいようにとUIを後付けで組み込んだものが見つかった。そのうちの1つが「KoeMill」というフリーソフトだ。
「KoeMill」では1度初期設定を行ってしまえば、後はファイルを指定して、実行ボタンをクリックするだけで、音声データを「Whisper」に文字起こしさせることが可能。そのインターフェイスは、いわゆるメディアプレイヤー的な外見になっているので、Google Colabのようにコードアレルギーを起こす心配もなさそうだ。
なお、以前に紹介した「Google Colab」を利用する方法では、モデルデータのダウンロードに時間がかかっていたが、「KoeMill」なら初期設定時にダウンロードしたモデルデータを、次回以降も使いまわすことができた。音声データをアップロードする時間もなくなるので、作業前の準備時間をかなり短縮できるだろう。
ただ、「KoeMill」ではローカル環境で作業を実行するため、PCのGPUに負荷がかかる。そのため、グラフィックボードを搭載していない会社の古いPCでは、CPU内蔵のGPUとメインメモリに負荷がかかり、他の作業がほとんどできなくなってしまった。作業自体にもかなりの時間がかかってしまったので、自宅PCでの作業を効率化するのには使えても、一部の会社PCでは利用するのは難しそうだ。
9月27日(水):Webアプリ「Whisper Web」ならどうだろう?
会社にあるPCの中には「KoeMill」の利用が難しそうなものがあったので、プランBとして「Whisper Web」を試してみることにした。
これは、ブラウザー内での操作で、「Whisper」を使った文字起こしができるWebアプリ。インターフェイスがかなりシンプルなので、PCがあまり得意ではない同僚にもオススメできそうだ。
ただ、「Whisper」では5つのモデルが用意されているのだが、「Whisper Web」ではこのうち「tiny」と「base」しか利用できない。その上に「small」「medium」「large」と、より認識精度の高いモデルがあるのだが、恐らくデータのサイズが大きいので利用できなくしているのだろう。
そのため、「Whisper Web」が文字起こしをしたテキストでは、文章が一部破綻した箇所があった。とはいえ、導入のハードルはかなり低いので、まずは「Whisper Web」を使って、自動文字起こしの利便性を体感してもらうのはアリかもしれない。
9月28日(木):よりスムーズに使うために、音声やテキストのデータを加工する
昨日はZoomで行ったミーティングの議事録用に「Whisper Web」を使ったので、録画時に自動で作成されるM4A形式の音声ファイルをアップロードした。ただ、会社のボイスレコーダーは大容量なWAV形式でファイルを保存するため、この録音データをアップロードするには、かなりの時間がかかる。今後はミーティングをオフラインで行う可能性もあるので、録音にボイスレコーダーを使う場合は、アップロード前に音声ファイルをMP3形式などに変換してもよさそうだ。
また、文字起こしされたテキストデータは、改行なしのひと続きの文字列として出力されるため、読みやすくするためには、ある程度の手直しが必要となる。この作業については、以前にも紹介した「自動改行追加ツール」の利用がオススメだ。
文字起こしAIの「Whisper」を使うと、議事録を効率よく作成できる。プロジェクトをよりスムーズに進めるためにも、できればチームのメンバーに、その利用をもっと広めていきたい。
とある中小企業に勤める会社員、飛田氏による体当たりレポート「急遽テレワークを導入した中小企業の顛末記」。バックナンバーもぜひお楽しみください。