ニュース

エッジAIのIdein、音声解析サービス「Phonoscape」提供、JR東日本の駅で業務改善の実証実験

技術的ハードルの高い「対面会話データ」を活用可能に

左から、Idein株式会社 執行役員/VP of Business Development 川崎貴史氏、Idein株式会社 代表取締役/CEO 中村晃一氏、JR東日本スタートアップ株式会社 アソシエイト 萱沼徹氏。川崎氏が持っているのが、Phonoscape本体とマイク

 Idein(イデイン)株式会社は5月28日、エッジAIを利用した音声解析サービス「Phonoscape」(フォノスケープ)の提供、および、JR東日本グループと実施する実証実験について発表した。

 IdeinはエッジAI開発プラットフォーム「Actcast」(アクトキャスト)を提供しており、エッジAIソリューションの開発や大規模なサービス展開に強みを持つ。Phonoscapeを利用したサービスが「JR東日本スタートアッププログラム2024秋」で採択され、駅の業務改善を目指した実証実験が行われる。

Ideinの強みは大規模な運用実績を持つプラットフォーム「Actcast」

 発表会では、はじめにIdeinの中村晃一氏(代表取締役/CEO)が、同社の事業について説明した。「実世界のあらゆる情報をソフトウェアで扱えるようにする」をミッションとする同社は、エッジAIサービスを社会実装するためのインフラとして、Actcastを位置づけている。

 同社のエッジAIソリューションは、カメラやマイク+ワンボードコンピューター(Raspberry Pi)の、コンパクトかつ低コストなハードウェアにより構成されることが特徴。ファミリーマートや(具体的な企業名は伏せられていたが)大手携帯電話キャリアのショップなど、数千の規模で全国に拠点を展開する企業に導入されている。

Actcastの導入実績

 エッジAIソリューションの開発において、デバイスやそれを動かすソフトウェアなどソリューション本体の開発は多くの事業者が手掛け、ソリューションごとの特徴を生み出している。同社の強みはインフラのActcastにあり、デバイスの管理やセキュリティなどの、どのようなサービスにとっても欠かせないが差別化点にならない機能の開発費用を圧縮でき、しかも大規模な運用実績を持つことであると、中村氏は説明した。

エッジAIソリューションの開発プラットフォームとしてActcastがあることで、インフラ部分の開発費を圧縮し、付加価値を生み出せるソリューション本体の開発に集中できる

対面会話のAI解析は、これから立ち上がる有望な市場

 中村氏は続けて、Phonoscapeで参入するAIマイク/AI音声解析市場についても解説した。

 Phonoscapeはマイクを接続したエッジAIデバイスにより、対面接客の現場の会話を録音して話者ごとに文字起こしする。

 Phonoscapeの特徴は、ノイズのある環境で行われる対面の会話を、高い精度で録音し、的確に話者ごとに分離して文字起こしできるようにする、録音段階の技術にある。ノイズの分離や複数話者の切り分けが困難なことから、対面会話のデータ化や音声解析は、通話データが利用できるコールセンターなど非対面・オンラインの現場と比べて、技術的なハードルが高かったという。

対面接客の音声解析を目的としたエッジAIソリューションでは、文字起こしとデータ加工(要約/分析)の部分は、実用可能な水準になっている。しかし、録音の部分とビッグデータ分析の部分では技術的な課題がまだ多く、Ideinではこれらに取り組んでいる

 コールセンターでは、すでに録音や音声解析は広く普及しており、普及率は94%に上るとされる。そして、コールセンター業務の従事者は推定70万人であるという。これに対し、Phonoscapeが狙う対面会話(接客、商談など)を行う業務への従事者数は推定1200万人。中村氏は、対面会話のAI解析市場はこれから立ち上がるところで、今後有望な市場であると強調した。

AI音声解析のユースケース。カスタマーハラスメント対策、営業現場の業務改善、ハイパフォーマー分析と人材育成、まーめティング活用と、4つの例が挙げられた
Ideinが想定するAI解析による音声データ活用のステップ。現状のPhonoscape本体では2段階目までの機能が提供されている。Phonoscapeのデータをもとに、ハイパフォーマー分析やマーケティングのための分析などを行うことで、業務改善や新サービスの開発に音声データを活用できるゴールに至ることがイメージされている

カウンターでの会話を自動で文字起こし・要約

 Phonoscapeの機能については、Ideinの川崎貴史氏(執行役員/VP of Business Development)が説明を行い、デモも行われた。

 Phonoscapeのハードウェアは、卓上に置くマイクと、それを接続する本体デバイス(小型のコンピューター)で構成される。マイクは話者の方向を検知しながら、雑音や店内BGMなどのノイズを除いて、必要な会話だけを話者ごとに録音する。録音はエッジAIが意味のある会話が発生したことを検知して自動で行われ、現場のスタッフに操作の負荷をかけないようになっている。

 文字起こしはクラウドAIによって行われる。文字起こしが完了したデータは同サービスの管理画面上で分類・整理されて確認できるほか、外部システムで取り出すこともでき、生成AIで要約したり、接客記録を作成したりといった利用も可能となる。

Phonoscape本体とマイク
Phonoscapeのサービス概要。カウンターなどで行われる対面会話データを自動的に、高品質で録音でき、話者を分離して文字起こしする。要約や抽出も可能
Phonoscapeの優位性
Phonoscapeの機能

 デモは、結婚相談所のカウンターを想定して行われた。結婚相談所では1日に複数件の相談が行われ、それぞれでいくつもの条件の提示や提案が行われる。ウェディングプランナーはそれらを漏らさず記録し、整理し、プランをまとめていく必要がある。

 マイクを置いたカウンターをはさんで、周囲に雑音を流した状態で、従業員役と顧客役が2分程度会話を行った。これが、10分ほど後には文字起こしされてPhonoscapeの管理画面から参照可能になり、文字起こしされた会話内容やその要約を閲覧できるようになった。

対面で話すデモの様子(ハンドマイクは会場向けで、Phonoscapeのマイクは中央に置かれている)

 デモの後で、スマートフォンによる録音および文字起こしと比較する動画も紹介された。ノイズがある環境下で録音した音声を正確に捉えて文字起こしすることは、現在のスマートフォンでは難しい。また、話者分離により、後から参照した際の分かりやすさが高まることも、比較により示された。

従業員と顧客に分かれた、会話の詳細な文字起こしデータが作成された

JR東日本の駅で「AIマイク」の実証実験を実施

 Phonoscapeを利用した実証実験について、JR東日本スタートアップの萱沼徹氏(アソシエイト)が紹介した。JR東日本スタートアップは、JR東日本グループで、スタートアップ企業との共創を推進するコーポレートベンチャーキャピタルである。

 JR東日本では、「お客さまの声をもっと集められるはずではないか」との課題があったという。同社が1日に収集できている「お客さまの声」は約600件だが、JR東日本全体の駅の利用者数は、1日あたり約1557万人にのぼる。

 そこで、駅の窓口などにPhonoscapeを設置し、駅係員と利用者の会話を自動取得して業務改善につなげる実証実験を行う。まず目指すのは、よりスムーズな案内や、案内サインの改善、駅員のスキル向上、感謝される接客の実践など。まずは実用性を実証することから始め、実施規模や設置する駅などは、まだ未定だという。

 実証を行う窓口にはPhonoscapeのマイクが明示的に置かれ、「AIマイク作動中」というステッカーも設置される。萱沼氏は「お客さまの声を価値につなげたい」と、本実証への期待を語った。なお、実証の現場でAIマイクによる録音をされたくない場合は、意向を伝えればマイクを停止するという。

実証実験のイメージ
お客さまの声をより多く収集し、業務改善につなげることを目指す
まずは直接的な利用者に対してのサービス改善を、さらにはサービスの高度化による業務改善を目指すとしている