インタビュー

ポッドキャストをAIで文字起こししてくれるサービス「LISTEN」登場

「はてな」創業者の近藤淳也氏が立ち上げ。その狙いをポッドキャスターが聞いてきた

「LISETN」は、ポッドキャスターとリスナーを繋ぐコミュニティサービス。AIによる文字起こしなどの基本機能は無料で利用可能。今後、限定公開や購読機能といった有料オプションを提供する予定

 OpneAIの自動文字起こしAI「Whisper」を用いて、アップロードしたポッドキャスト(Podcast)の内容をテキスト化して共有できるサービス「LISTEN」が6月21日、正式に提供開始された。ポッドキャストを再生すると、それに同期してテキストがスクロール&該当箇所がハイライト表示されていくため、耳だけでなく目でも内容を追いかけられる。逆にテキストを読んで気になった部分を再生するという使い方も可能だ。1行ごとにリンクが発行されるため、ポッドキャストの中の面白かった箇所がピンポイントで共有できる。

 ポッドキャスターとリスナーを繋ぐコミュニティサービスとして“ポッドキャストの新しい体験”を提供するという同サービス、運営するのは株式会社ONDらによるプロジェクトチームだ。同社の代表取締役社長であり「はてな」創業者としても知られる近藤淳也氏に、LISTENを開発した経緯や狙い、サービスへの思いを聞いた。

[目次]

  1. ポッドキャストを聴くだけじゃない、「LISTEN」というサービスの特徴
  2. ポッドキャストの魅力でもあり課題――敷居の高さを「LISTEN」で解消
  3. ポッドキャスターはみんな(儲からないのに)楽しそう!?
  4. 「はてな」にも通じる部分が? テキストと音声の違い、そして音声の可能性

※この記事は、自身もポッドキャスターである宮本拓海氏によるインタビュー取材をポッドキャストとして収録し、それを実際にLISTENで文字起こししたテキストから一部を抜粋・編集したものです。インタビュー全編の音声および文字起こしテキストもLISTEN上で公開しています。興味を持たれたポッドキャスターやリスナーの方はぜひ、LISTENがどういうサービスなのか体験してみてください。

近藤 淳也
1975年生まれ。2001年、有限会社はてな設立。その後、株式会社に改組。「はてなダイアリー」「はてなブックマーク」などのサービス開発を手掛ける。2017年、株式会社OND設立。「物件ファン」 「UNKNOWN KYOTO」 「IBUKI」 「BAR KRYPTO」 「LISTEN」などの事業を手掛ける。NPO法人滋賀一周トレイル代表理事も兼任。

宮本 拓海
1994年生まれ。2019年4月から岩手を拠点に、企画・編集・執筆を行うフリーランスとして活動。岩手県花巻市と遠野市が共同事業として実施しているポッドキャスト「GOOD NEIGHBOR GOOD CULTURE」(SpotifyGoogle PodcastsApple Podcasts)、偏愛するコンテンツやメディアを“夜の言葉”で語るポッドキャスト「メディアヌップ」の運営に携わっている。

ポッドキャストを聴くだけじゃない、「LISTEN」というサービスの特徴

宮本: このLISTENのサービスが、具体的にどういうことができるのかお聞きできればと思うんですけど。

近藤: AIでポッドキャストの内容が文字起こしできるのが大きな特徴なんですけども、それ以外にポッドキャスターとリスナーですとか、ポッドキャスター同士を繋げていくような機能もあって、コミュニティ的な側面もあるかと思います。

 公開されているポッドキャストですと、基本的にRSSによって配信されていると思うんですけども、そのRSSを無料でユーザー登録してもらうと、自動的にどんどん文字起こし化されていくかたちになっています。ただし、第三者が勝手に他人のポッドキャストを文字起こしするのは良くないと考えているので、認証をする必要があって、RSSを登録したあとに、RSSの中に特定のリンクを入れる操作をしてもらって、認証されると自動的にどんどん文字起こしが進んでいくという感じですね。

宮本: リスナーにとっては、実際に公開されている番組をテキストで読めたりだとか、そういうところで楽しめるということ?

近藤: そうですね。まず、話している内容が割と高い精度で文字起こしできますということ。あと、「自動チャプター分け機能」と呼んでいるんですけれども、話の内容の塊を見つけていって、自動的にチャプターを分けたうえでチャプターに対してタイトル/見出しが付きます。さらにその見出しが最初に目次として出てくるので、大まかにどんな内容かということが分かります。

 それぞれ誰の発言か自動的に認識して分ける「話者分離機能」という機能も最近付きました。ポッドキャスターが出演者の情報を登録することができるため、今日はAさん・Bさん・Cさんが出ていますということを登録してもらうと、全発言の先頭にそれらのアイコンが表示されます。誰がどんな話をしているかということを、かなり見やすくなっていると思います。

AI文字起こしによるテキスト表示画面は、ポッドキャストの再生に同期してスクロールし、該当部分がハイライト表示される。聴き逃した/聴き直したい箇所を探して再生し直すのがスムーズに行える
ポッドキャストの音声プレーヤーでは、10秒早送り・巻き戻しボタンがあるほか、再生速度を0.5倍から3.0倍まで、0.1刻みで設定可能
話の内容から自動的にチャプター分割され、自動的に付与された見出しが「目次」として表示される。もちろん、ここから各チャプターの音声・テキストにジャンプ可能だ

宮本: 書き起こしされたら困るみたいなものを、例えばポッドキャスターがエピソードごとに設定したりすることはできるのですか?

近藤: 今はエピソードごとにはできないんですけれども、今後の計画としては、よりきめ細かく公開範囲を設定できるようなものを検討しています。検索避けという意味もあるんですけど、例えば自分のリスナーだけに公開するみたいなこと、エピソードによっては「これは会員限定のコンテンツで」とか。

 人気のポッドキャスターだと、会員向け限定コンテンツですとか、有料課金をして会員だけに配信みたいなことをされていると思うので、そういったことに対応していきたいなと思っています。

宮本: (ポッドキャストでは)実際、音声コンテンツの中で盛り上がってその場のノリで喋っているものがあるので、それこそ本当に、感情が乗っているからこそ伝えられるニュアンスのものが、テキストだとやっぱり伝わりづらかったり失われるものもどうしてもあると思うので、すごくいい機能ですよね。

近藤: でも逆に、できるだけテキストをきっかけに聴いてもらえるといいなと思っていまして、「パーマリンク機能」「シェア機能」というものがあるんです。書き起こしされたテキストのどの場所でも任意の場所からリンクを生成して、話の途中から再生ができ、その部分のテキストを引用できる固定リンクを取得する機能が、テキストにマウスオーバーしていただいたりすると出てくるんです。この固定リンクを、例えばTwitterとかブログとかでシェアしますと、その発言が引用されたかたちで共有できます。

 (ポッドキャストは)今までエピソード単位とかだとシェアできたと思うんですけど、「話のここが面白い」「この返し最高」とか、そういう発言1個取って人にシェアして面白いよって言ったり、感想を届けたりということがより細かくできるようになったので、1個のエピソードでもたくさん引用していろいろな場所にシェアすることもできますし、逆に、シェアされたものを見た人が新しく知らないポッドキャストを聴いたりするきっかけになるかなと思ってるんですけど。

 そのときに、ボタン1つで再生ができるようになっていまして、文字だけで読むだけじゃなくて、どんな雰囲気で話してるのかっていうのも、ぜひ再生ボタンをポチッと1個押してみてっていう気持ちがありまして。そこに、やっぱり文字だけでは表現できない話し手たちの気持ちとかが乗っているし、その場から感じるものってすごいあると思うんです。

 そういう音声があることで、テキストだけのコミュニケーションとは違う温度感というか、そういうものになっていくと、変な誤解も減っていいんじゃないかなっていう。そうなってくれるといいなって思ってます。

宮本: まさに本当にLISTENの中で完結するサービスというよりかは、むしろ、登録されているポッドキャスターの皆さんの番組を補助するような、リスナーとの接点になるようなサービスになってるんですね。

文字起こしされたテキストの任意の箇所にマウスオーバーすることで、その箇所をピンポイントで再生&シェアできる固定リンクを取得できる

ポッドキャストの魅力でもあり課題――敷居の高さを「LISTEN」で解消

近藤: ポッドキャストの良さでもあり、課題でもあると僕が感じているところは、やっぱり音声ですので、感情というか気持ちも伝わったりするところ、あと、長い時間その人の声をずっと聴くことになるので、リスナーとポッドキャスターとの間の熱量というか、多分、テキストだけよりも深い仲になっているというか、深い繋がりになっていくというところです。

 ものすごいたくさんの数じゃないけど、聴いている人とはすごく密接な関係が作られていく良さがポッドキャストにあるんじゃないかなって感じているんですけど、それは裏返すと、すごい敷居が高いという課題になっているのかなと。特に、知らないポッドキャストを探したり、ちょっと聴いてみたりするのがすごい難しいというか。

 実際、知らないポッドキャストの内容をちょっと聴いてみようといっても、15分ぐらい経ったところから面白くなるみたいな……ある程度その人を知らないと、その面白さにたどり着くまでが難しくて、もしかしたら興味あったかもしれないのに、そのポッドキャストの面白さに気付けなくて聴けないとかっていうこともあるんじゃないかなと。

 そういう、新しいポッドキャストを探したりとか、逆にポッドキャスターからすると、新しいリスナーと出会う敷居がちょっと高いっていう課題があるかなって思っていまして、そういうところがテキストになったり、だいたいこんな話をしてますよみたいな見出しが見えたり、誰がこういうふうに話してますみたいなことが綺麗に見えたりすることで、すごく敷居が下がるんじゃないかなって。

 聴いたことないポッドキャストでも、ざーっと見ると、こういう話題やってるんだって分かりますし、それでちょっと面白そうだなと思ったらポチって押せばすぐ再生できます。さらに先頭からじゃなくてテキストの途中からでもクリックすると、その場所からいきなり再生ができるので、「この話題ちょっと面白そうだな」っていうところから気軽に聴き始めてもらったりできるので、そういうところで音声ならではの敷居の高さみたいなものが取っていけるといいんじゃないかなって思っています。

宮本: LISTENのサービスとしての今後の展望とか、何か考えてらっしゃることはありますか?

近藤: まず、先ほどお伝えした会員制度みたいなところで、私もポッドキャスターやってみて思うんですけど、なかなかリスナーを増やすのが難しいというのが1つ。

 もう1つは、収益化はかなり難しいなという感覚がありまして、ポッドキャストで生計を立てるまでいかなくても、人気のある方でもちょっとしたお小遣いを稼ぐのもけっこう敷居が高いなと。その割には、けっこうな時間をかけたり、ゲストの方を呼んで時間をいただいたりするので、晩御飯代ぐらいお返しできたらなという気持ちは個人的にもあるんですけれども。

 じゃあどうやって収益化するかというところで1つ、広告っていうのもあるのかもしれないですけど、やっぱりリスナーの数が爆発的に増えるってなかなか難しいと思うんです。そうなると、広告もありだと思うんですけど、やっぱり本当に熱心に聴いてくださるリスナーに会費を払っていただくとか、そういうかたちが今一番現実的なビジネスモデルというか、少しぐらいのお金が回る仕組みとしては一番現実性が高いんじゃないかなと思っています。

 ただ、それをやるにも仕組みがなかなかないと思うんですよね、すぐパッと使える良い仕組みっていうのが。なので、有料の会員を募ったりですとか、個別のコンテンツをこれは100円で聴いてくださいみたいな、そういうのが簡単にできて、それをLISTENの運営費にも充てられるようなモデルとかはできるといいなと、今、計画をしています。

ポッドキャスターはみんな(儲からないのに)楽しそう!?

近藤: 例えばブログとかに比べて、ポッドキャスターの数ってそんなに多くないと思うんで、どこまでの規模がこれからあるのかとか、それがビジネス的にもどれぐらい発展性があるのかっていうのは、ちょっと正直分からないところはある。とはいえ、自分の観測範囲でもポッドキャストを楽しそうにやってる人たちがいて、まず僕の感想として、自分でポッドキャストをやり始めて感じたのが「なんかみんな、けっこう楽しそうだな」っていう。

宮本: やってる人たちが楽しそう。

近藤: そうですね、本当に。多分、今、(ポッドキャストでは)儲かりもしないと思うんで、動機的にはピュアな動機でされている方が多いのかなとも思うんです。

 それと、やっぱり声に感情が乗っているからか、あるいはブログのときは一人で書くのが多かったと思うんですけど、会話が多いじゃないですか。一人語りの番組もありますけど、対談相手がいたり、ゲストがいたり。人が人と話してる様子って、一緒に話せる喜びみたいなものがやっぱりある気がしますし、一人語りでも気持ちも乗っているというか、感情も含めて伝わってきて、それを聴いていて、ちょっと元気をもらえたりとか、「なんかすごい、この人って楽しい」みたいな雰囲気を感じることができたりして。ポッドキャストって、それが有名人とかじゃなくても「よくよく聴いていくと面白いな」みたいになる。

 そういう方の中で、ちょっとウェブがいじれる方とかは、自分のポッドキャストのサイトを作ってたり、中には文字起こしをされている方ですとか、一生懸命概要をテキストで書き起こしている方ですとか、そういう方が多いなというのは感じていて、実用的な速度と精度で文字起こしができるのであれば、やりたくてもできない方もいるかもしれないんで、(LISTENのようなサービスが)けっこう役に立って喜んでもらえるんじゃないかなって思ったという感じです。

「はてな」にも通じる部分が? テキストと音声の違い、そして音声の可能性

宮本: 近藤さんは「はてな」も創業されてますけど、このLISTENのサービスの中とか作り方とかには、何か「はてな」と通じるところってあったりしますか?

近藤: インターネットサービスといっても、いろいろなジャンルのサービスがあると思うんですけれども、あらためて思うのは、やっぱり人と人が繋がったりとか、コミュニケーションしたりだとか、そういうところが好きなんだなっていうのはまず感じています。

 昔もブログサービスを作ったりしていて、ブログも自分の思いとかを文章に書くと、それがたくさんの人に読んでもらえてコメントとか反応がもらえて、結局は人と人がどういうかたちで情報を伝え合ってコミュニケーションするかっていう設計だったり、あるいは情報をやり取りする場所を作って、そこに人が集まることによるコミュニティができていくっていう、そういう装置といいますか、社会的な装置というか、そういうものを作ってきているのかなって感じているんです。

 今回も、みんなしゃべります→しゃべったものをなぜか録音したがります→録音状態だけだと面白いんですけど、ちょっととっつきにくいところもあるのでテキストにしてみます→それを読んだ人は、そこから新しく人の話を聴けたりできます、という。

 結局、人と人がどうやってコミュニケーションができますかということをデザインしていくというか、そういう部分をやっているなってすごい感じていて、そういう意味では一貫して、自分の中での興味としては「今のツールを使うと人と人のコミュニケーションがどういうふうに設計できるのか」ということに興味があって、そういうところがやっぱり好きなのかなという意味では、「はてな」に通じるものがあるかと言われたら、あるなと思います。

「LISETN」のロゴ

LISTEN=聴こう!、みたいな気持ちで、耳にしています。以前に、1on1をアウトソーシングできる『エール』という会社の北村さんと『アンノウンラジオ』でお話をしたのですが、この時に、『聞く』と『聴く』の違いについてや、1on1で話を聴いてもらうことを求めている人が世の中にはたくさんいること、さらに『聴く』ことを副業でやりたいという人もたくさんいることを知りました。その時に、『聴く』ことって、相手に興味や時間を捧げることでもあり、相手に関心を寄せている、ということを示す素晴らしい贈り物なんだと感じました。自分の生活が忙しかったりすると、なかなか人の話に耳を傾けて『聴く』ことが難しかったりしますが、新しい技術も使いながら、人と人がもっと「聴きあう」世の中になると良いな、という想いを込めました。(近藤氏)

近藤: 逆に違いがあるとしたら、例えばブログサービスですと、基本的にはテキストです。そうすると、さっきも話したように、ちょっと誤解が生まれたり。

 例えば「宮本さんったらバカですね」って今僕が言ったとして、この言葉をテキストでブログに書くと、なんか非常に冷たい、最も冷たい想定で伝わると思うんです、特に本人には。ところがそれが音声だと、同じ文章でもちょっと違ったニュアンスで聞こえたり、別にそんな悪い気持ちで言ってるんじゃないよねっていうのは、ちゃんと分かったりする。

 そういうところで、テキストベースのインターネットのコミュニケーションって、やっぱりちょっと怖いところがあったと思うんですね。要は、必要以上に冷たく伝わったりすることによって誤解が生まれ、そのことによって、本来は全然そんな悪意もなかったのに、ケンカと言いますか、いろいろな負の感情を感じてしまって、それがマイナスの連鎖を生んで対立が生まれたり、誤解が広がっていったり、そういう悲しい事件・出来事はけっこう多かったと思います。その様子を見ていて、オープンな場所で文章を書くのってちょっと怖いなっていう印象が世の中には広がっていったと思います。それによって、例えば、友達しかいないFacebookで書くようになったり、ずっと残る場所で文章を置いておくことの怖さみたいなものも認識されていったのかなって。

 ただ、じゃあ本当に知り合いしかいない場所だけで閉じこもっていたいかっていうと、やっぱり人って、本当はもっと人と繋がりたいって思っていると思うんですよ。そういうこともあるので、どこか安全な場所を見つけてでも何か発信をしたいし、人と会いたいし、もっと繋がりたいって思ってるみたいなところは。

 やっぱり人が一人では生きれないし、いろいろな人と繋がることで力をもらって、生きていく力をもらったりして、楽しく生きていくことができるっていう、やっぱりそういう生き物だと思うんで、それは本当はやりたいんだと思うんですよね。なので、それが音声になることで、誤解が減って、本当にその気持ちがちゃんと伝わり合って、ちゃんと人と繋がれるっていうようなきっかけにできるといいなっていうのが、今回のチャレンジかなと思ってます。

※本記事では、掲載にあたって人間の編集者によるテキストの確認・整形・修正等を行っていますが、「LISETN」で公開している文字起こしテキストは、同サービスのAI文字起こしで自動的に生成されたものをそのまま公開しています。話者識別とユーザーの紐付けのみ手動で行っており(現在、これを自動で紐付ける機能はありません)、チャプター分割および見出しの付与などは自動で行われた状態です。同音異義語の間違いなども未修正の状態で公開しているため、LISETNの基本機能でココまでできるという参考としてご覧ください(※記事で掲載している画像は、ベータ提供中の時点のものも含まれています)。

インタビュー全編の音声・文字起こしテキストの公開ページ

[目次]


LISTEN NEWSより

話の流れから「唐突」と言ったと思われるところが「到達」に。そのほか「書き起こし」が「駆け起こし」や「掛け起こし」となっている部分が散見された
一方で、「なるほど、確かにすごくいですね」の箇所は、つぶやくような相づちだが、正確に文字起こしされていた
AIで自動文字起こしされたテキストは、手動で間違いの修正などを行ったうえで公開できる。ポッドキャスターが文字起こしのテキストの任意の行にマウスオーバーすると、固定リンクなどリスナー向けの機能のほか、変種機能も呼び出せる(ペンのアイコン)