急遽テレワーク導入!の顛末記

「クラファンで1.5億円突破したAIボイスレコーダー「PLAUD NOTE」の実力とは?」――急遽テレワークを導入した中小企業の顛末記(167)

文字起こし性能や操作性をテストしてみた

名刺サイズでスマホの背面にも装着可能と、携帯性もバツグン

 ChatGPT連携AIボイスレコーダー「PLAUD NOTE」が、クラウドファンディングでプロジェクトへの参加者を12月30日の午後6時まで募集中だ。このデバイスでは音声を録音することで、以前に紹介した「Whisper」で文字起こしするとともに、ChatGPTによる要約までを全て自動で行ってくれるという。

 ……この記事を書いている時点で、新型コロナが5類に移行されて207日が過ぎた。

 私が勤めている新宿にある中小企業では現在、各スタッフが可能な範囲でリモートによる業務を行っている。今回は「PLAUD NOTE」をお借りすることができたので、その使い勝手を実際に試してみた。

【今回のハイライト】
ボイスレコーダーとして録音して
スマホ操作でワンタッチ文字起こし!
音声や文字起こしテキストは出力可能

11月27日(月):カードサイズの本体だけでお手軽に録音可能!

ChatGPT連携AIボイスレコーダー「PLAUD NOTE」

 「PLAUD NOTE」の人気が、クラウドファンディングの「Makuake」上でヤバいことになっている。今日の時点での応援購入総額は約1億5000万円。早割26%OFFの6500人限定の製品は、残数が1370個と売り切れが気になる状況だ。

 そんな、「PLAUD NOTE」が筆者のもとに届いたので、さっそくパッケージを開けると、以下のアイテムが封入されていた。

  • 本体
  • 説明書
  • 専用MagSafeケース
  • USB Type-Aのマグネット式充電ケーブル
  • Type-CへのUSB変換コネクタ
  • MagSafeリング ※MagSafe非対応スマホ用

 本体はほぼ名刺大といったサイズ感で、厚さは2.9mm、重量は約30gと普通のボイスレコーダーと比べても、かなり薄くて軽い。マイク穴は側面に2か所開いており、机に置くとちょうど目の前にいる相手の方を向いてくれるという寸法だ。薄型軽量なので、移動中などは胸ポケットに入れて録音することもできる。

 一方、付属品のうち充電ケーブルはデータ通信にも対応しており、ケースを装着した状態でも、開いた窓から本体に装着可能。専用ケースはMagSafeに対応しており、iPhoneの背面に装着した状態で通話をすると、振動伝導センサーによってスピーカー出力にしなくても録音が可能となる。筆者はiPhoneにスマホケースをつけて利用しているが、スマホケース越しでも問題なくiPhoneに装着できた。

専用ケースや充電ケーブル、USB変換コネクタなどが付属
マグネット式の充電ケーブルは、ケースに本体を入れたままでも接続可能
専用MagSafeケースをスマホの背面に取り付ければ、音声通話も録音できる

 録音の開始と終了は、スマホで操作するか、本体上部にあるボタンを押すだけ。あとは、通話を録音する際に振動伝導センサーのON/OFFを、本体のトグルスイッチで操作するだけと、操作系はいたってシンプルになっている。試しに録音操作をしてみたが、ボタン操作時にはLEDランプが点灯/消灯するとともに、バイブが反応してくれるので、「本当に録音しているか?」と心配しなくて済みそうだ。

11月28日(火):文字起こしはワンタッチするだけ、とにかく操作がラク!!

 「PLAUD NOTE」の基本機能は確認できたので、今日はいよいよ録音を行うとともに、注目の自動文字起こし&要約機能をテストしてみたいと思う。

 まずは、本体側で録音操作をした際の動作についてだが、ビットレート512kbpsのWAV形式でファイルが保存されていた。WAV形式というとファイル容量が大きくなりそうだが、本体には64GBのメモリー領域が用意されており、最大で約480時間の録音が可能とされている。ちなみに、この時点ではノイズキャンセリングの加工は行われていないようで、周囲の雑音などもそのまま保存されていた。

録音データはWAV形式のファイルとして本体に保存される

 その後、iPhoneで専用アプリを起動して、「PLAUD NOTE」に接続すると、音声ファイルが自動でスマホに転送される。それと同時にどうやらエンコードも行われているようで、iPhone側にはMP3形式(32kbps)でファイルが保存されていた。あまり大量のWAVファイルをiPhoneに保存するとストレージ容量を圧迫してしまうし、この後のクラウドとの通信にも時間がかかってしまうので、これも理にかなった仕様といえるだろう。

 で、この時点ではまだ自動文字起こしと要約は行われていないので、アプリ上で「文字起こし開始」の操作をすると、画面が「アップロード中です」の表示に切り替わった。その後、しばらく待つと文字起こしが終了して、画面上に文字起こしされた文面と、要約された文面が同時に表示される。

 この間に筆者が行った操作は、「iPhoneとPLAUD NOTEを接続」し、「文字起こし開始」ボタンを押しただけ。PCで「Whisper」を使って文字起こしを、ChatGPTを使って要約をするには、割と面倒な操作が発生するので、それをほぼワンタッチで終わらせてくれるのは感動ものだった。

 何より、文字起こしや要約された文章は、適度な位置で改行されるとともに、時間の打刻も行われるので読みやすい。Google Colaboratory上で「Whisper」を動かすと、改行なしのひとつながりの文章となって文字起こしされるので、これだけでも「PLAUD NOTE」を使ってよかったと思えるレベルだ。

スマホアプリを起動して、「PLAUD NOTE」の本体と接続すると……
録音データが自動でスマホに移動した
ファイルを選んで文字起こしを実行
文字起こし結果は適切な位置で改行され、打刻も行われる

 筆者も普段の文字起こし作業に「Whisper」を使っているが、それに比べて「PLAUD NOTE」は操作が圧倒的に楽になっている。というか、「Whisper」での文字起こしは、操作の難しさから同僚がみんなギブアップしてしまったのだが、「PLAUD NOTE」はその手間を一気に解決してくれるガジェットといえるだろう。

 ただ、要約機能について試してみたところ、長時間の録音データを読み込ませた場合に、なぜか冒頭の数分間の内容しか含まれていないということがあった。ChatGPTには質問1回の文字数に制限があるので、何らかの影響があるのかもしれない。

文字起こしを実行すると、同時にChatGPTによる要約も行われる

 また、録音データや文字起こし/要約したテキストは、「シェア」機能を使って他のユーザーと共有したり、「エクスポート」機能を使ってファイルとして書き出すことができる。ちなみに、付属のケーブルを使って、「PLAUD NOTE」本体から直接WAVファイルを取り出すこともできるが、このWAVファイルはスマホと同期すると削除されてしまうので注意が必要だ。

エクスポート機能では、録音データや文字起こし/要約したテキストなどを、メールなどで送信できる
シェア機能を利用するとURLが発行され、録音データなどをクラウド上で共有できる
iTunes経由で録音ファイルをPCとやり取りすることはできなかった

11月29日(水):「PLAUD NOTE」は文字起こしスピードが圧倒的に速い!

 昨日は「PLAUD NOTE」の文字起こし&要約機能を試してみたが、そこで1つ気になったことがある。それが、「PLAUD NOTE」における文字起こしの速さだ。

 そこで、「PLAUD NOTE」とGoogle Colaboratory上の「Whisper」では、どちらが早く文字起こしを終えるか? 実際に試してみたところ、以下のような結果になった。実に6分の1以下まで短縮できた計算だ。

約58分の録音データを文字起こしするのにかかった時間
  • PLAUD NOTE……約4分
  • Google Colaboratory上の「Whisper」……約26分
Google Colaboratory上で「Whisper」を使った場合と、処理速度を比較してみた

 「PLAUD NOTE」ではスマホのWi-Fiをオフにした状態では文字起こしができなかったので、「Whisper」による処理はクラウド上で行われているものと思われる。テスト結果を見るに、その処理能力はGoogle Colaboratoryの仮想マシンよりも圧倒的に上のようだ。というか、「PLAUD NOTE」での作業時間には、“ファイルのアップロード”と“ChatGPTによる要約”も含まれるので、かなりの爆速で文字起こしが行われていることになる。

 ちなみに、「Whisper」にはtinyからlargeまで容量の異なる5つのモデルがあるが、「PLAUD NOTE」の文字起こし結果は、一番文字の認識制度の高いlargeモデルでGoogle Colaboratoryでの文字起こしを行ったものとほぼ同じだった。

 なお、筆者は一世代前のAI翻訳機能付きのボイスレコーダーも使っているのだが、文字起こしの結果を比べると、「PLAUD NOTE」における文字の認識制度はかなり高い。今使っているボイスレコーダーは、単語の聞き違いが頻発して、文章が成立していないことも多いのだが、「PLAUD NOTE」の文字起こしには読んでいて意味不明になる部分がまずない。改めて「Whisper」による文字起こしの精度を思い知らされた。

 ただ、「Whisper」での処理がクラウド上で行われていることを考えると、「PLAUD NOTE」で文字起こしを行う場合は、ギガの消費量的にWi-Fiに接続した状態で行った方が良いだろう。一方、iPhoneと「PLAUD NOTE」の本体との通信については、iPhoneのWi-Fiをオフにしても同期できたことから、Bluetoothが利用されていると思われる。この時に「高速転送」という機能を利用すると、さらにWi-Fi経由でもスマホとダイレクトに接続するようになり、1時間程度の録音データを数秒でコピーすることができた。

会社のミーティングを録音して、文字起こしの精度を比較。旧レコーダー(右)と比べると、「PLAUD NOTE」(左)での文字起こしは、ほとんど文章が破綻していない

 ということで、「PLAUD NOTE」での録音から文字起こしまでを一通り試してみたが、操作性や文字起こしの精度はかなりのもので、クラファンで人気を集めていることも納得できた。気になる料金は「早割26%OFF」のセットが2万4500円で、ここに付属するAIメンバーシップ資格により、1年間は毎月10時間までの文字起こしが可能。制限時間を使い切った場合にも、「120分パッケージ」を400円で追加購入できる。

 また、メンバーシップ資格の更新については、年額プラン(1年間6000円で50時間分)と、月額プラン(1カ月1200円で10時間分)から選べるとのこと。ITスキルが高くない人でも簡単に使えて、しかも文字起こしにかかる時間を買う費用と考えれば、会社にも十分に経費精算ができそうだ。

 「PLAUD NOTE」を利用することで、録音から文字起こしまでにかかる時間が、ほんの数分まで短縮された。その操作性も含めて、急ぎの原稿や議事録を作成したい時には、頼もしい味方になってくれることだろう。

とある中小企業に勤める会社員、飛田氏による体当たりレポート「急遽テレワークを導入した中小企業の顛末記」。バックナンバーもぜひお楽しみください。

飛田九十九