急遽テレワーク導入!の顛末記
「英語の動画を、音声を翻訳させつつテロップ表示させてみた」――急遽テレワークを導入した中小企業の顛末記(180)
海外版の資料にある動画マニュアルなども、苦手意識なく観れるようになりたい
2024年3月25日 07:00
先日は生成AIなどを使って、英語で書かれたPDFを日本語に翻訳してもらった。おかげで英文のマニュアルなども読めるようになったのだが、この手の資料には動画で作られたものもあり、筆者のリスニング力では苦戦している。
……この記事を書いている時点で、新型コロナが5類に移行されて319日が過ぎた。
私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。その中で、今回は海外の動画を無料で翻訳できるサービスを探してみた。
3月18日(月):YouTubeなら簡単操作で日本語字幕を表示可能
今日はある案件で資料を取り寄せたのだが、そのひとつが英語ベースの動画だったので、解読するのに苦労している。これが、YouTubeに上がっている動画なら、字幕を有効にすることで、日本語のテロップを表示できるのだが……。今回は動画がファイルで送られてきたので、困ってしまった。
先日は「Google翻訳」や「DeepL翻訳」にアップロードしたPDFファイルを、丸ごと翻訳してもらったが、これらのサービスは動画の翻訳には対応していない。ここは、別のサービスを探す必要がありそうだ。
3月19日(火):動画の音声を字幕化してみたものの……
動画ファイルを翻訳するとなると、まずは動画の音声をテキストデータに変換した上で、それを日本語に変換する必要がある。このうち、音声を文字に起こした上で、それを字幕として表示することについては、以前に音声データの文字起こしをしたときと同じようにZoomが使えそうだ。
動画ファイルの映像と音声をZoomで配信するには、「OBS Studio」と「NDI Tools」が利用できる。「obs-ndi」というプラグインを利用すると、「OBS Studio」で再生、またはキャプチャしている映像を音声ごと「NDI Webcam Video」に送ることができるので、後は「Zoom」のマイクとカメラに「NDI Webcam Video」を指定すればよい。
ちなみに、PCで鳴っている音を字幕的にテキスト表示するには、Windows 11のライブキャプション機能も利用できる。こちらは、機能を有効にするだけでOKなので、音声を字幕表示するだけなら、「OBS Studio」などを使うより手軽な方法といえるだろう。
あとは、表示された英文テキストを日本語に変換すればよいのだが……。無料版のZoomやWindows 11のライブキャプション機能には、翻訳機能が用意されていない。なので、英文テキストをコピペして翻訳するか、OCR翻訳ツールなどを使うことになるが、そのたびに動画を一時停止して翻訳操作するというのは、ちょっと現実的ではないかもしれない。ここまでいろいろ試してみたが、“無料”にこだわるなら別の方法を考えた方が良さそうだ。
3月20日(水):Googleに翻訳させて、それを字幕表示してみた
「Google翻訳」では動画ファイルを読み込むことはできないが、入力した音声を翻訳することはできる。このとき、PCで鳴っている音を同サービスに読み込ませれば、再生している動画の音声をリアルタイムで翻訳させることが可能だ。
ただ、「Google翻訳」には5000文字までの字数制限があるため、リミットが近づいたら、そのたびに入力済みの英文を削除する必要がある。さらに、再生中の動画と「Google翻訳」を並べて表示してみたのだが、YouTubeのテロップに比べると距離が離れているせいで、動画と一緒に読むのはちょっと難しい。ここは何らかの方法で、翻訳された日本語テキストを動画に合成した方が良いだろう。
Googleに翻訳させたテキストを動画に合成するには、「ゆかりねっとコネクターNEO」や「音声認識字幕ちゃん」といったフリーソフトが利用できる。これらのツールはライブ配信を目的に開発されており、音声をリアルタイムで翻訳するとともに、翻訳されたテキストを動画と合成することが可能だ。
ただ、実際に動画の音声を翻訳させてみたところ、「ゆかりねっとコネクターNEO」では話に一区切りがつくまで、認識した英語をなかなか翻訳してくれなかった。そのため、動画内で話者がひっきりなしに話しているようなシーンでは、一度に大量の字幕がまとめて表示されてしまい、次の字幕が表示されるまでに慌てて読むハメに……。もちろん、その間は動画を観ている余裕なんてない。
一方、「音声認識字幕ちゃん」では「〇ミリ秒だまったら文を区切る」というように、翻訳するタイミングを調整することが可能。これにより、「ゆかりねっとコネクタNEO」よりも翻訳のペースを上げることができるが、その一方でいくつかのセンテンスが翻訳されないなど、翻訳結果に漏れが出てしまった。
ただ、今回のような結果となった理由としては、用意した動画で“話者が引っ切りなしに話していた”のが大きかったかもしれない。その後、もう少し会話のペースが遅い動画で試したところ、どちらのサービスでもセンテンスの漏れもなく、適度なペースで字幕を表示することができた。
とはいえ、ニュース番組のレポーターぐらいの会話のペースになると、とたんに対応が厳しくなったので、あらゆる動画に対応できるように別の手段も用意しておいた方が良さそうだ。
3月21日(木):専用サービスなら、翻訳も表示タイミングもスムーズ!
あれから色々と翻訳サービスを探してみたが、「ゆかりねっとコネクターNEO」のように“ライブ配信でのリアルタイム翻訳”を想定したサービスでなければ、会話のペースが速い動画でも翻訳の精度や表示のタイミングを改善できそうだ。例えば、「Auris AI」というサービスでは、アップロードした動画の音声を認識して、翻訳文を適切なタイミングにテロップとして動画に合成してくれる。
ただ、こうしたサービスの多くは有料のサービスとなっており、「Auris AI」についても無料で翻訳テロップを入れられるのは最初の30分まで。それ以降は30分/1.6ドルの追加枠を購入する必要がある。ただ、これまで紹介してきた中でも使い勝手は一番良かったので、試用してみて気に入ったら、枠の購入を検討してもよいかもしれない。
これまでは必要な資料を見つけても、それが英語版だとつい敬遠しがちだったが、生成AIや翻訳サービスの力を借りれば中身を読み解くことができそうだ。これからも積極的に利用して、情報をリサーチする範囲を広げていきたい。
とある中小企業に勤める会社員、飛田氏による体当たりレポート「急遽テレワークを導入した中小企業の顛末記」。バックナンバーもぜひお楽しみください。