ニュース

NEC、LLMと映像認識AIにより、映像を分析して説明文や報告書を自動生成する世界初の技術を開発

今回発表された技術のデモ画面、YouTubeで公開されている事故映像を例に、事故発生の経緯を説明する文章が生成されている

 日本電気株式会社(NEC)は12月5日、大規模言語モデル(LLM)と映像認識AIを組み合わせ、長時間の動画から利用者の目的に応じた短縮動画と説明文章を自動生成する技術を開発したと発表した。同社によれば、このような技術の開発は世界初。

 同技術をドライブレコーダーの動画分析に利用すれば、事故発生時の状況や発生に至った経緯などを説明する文章と、重要な場面の短縮動画を自動で生成でき、それらをもとに、損害保険金の請求や交通安全指導のための事故調査報告書を、フォーマットに合わせて自動生成することも可能だという。同社では、この技術の使用版を2024年3月に提供する予定としている。

 近年、交通のほか物流、製造、建設、小売りなど、さまざまな場面で安全管理や業務の効率化を目的とした動画の利活用が進んでいる。しかし、長時間の動画を確認して報告書の作成する作業に膨大な時間がかかることが課題となっていたという。また、生成AIの活用により、静止画の説明文章の自動生成は可能になったが、時間経過とともに変化する動画には適用が困難という課題もあった。

同技術による映像分析の流れ

 NECは、今回開発した技術の特徴として、次の3点を挙げている。

1.目的のシーンを効率的に抽出

 LLMと映像認識AIを組み合わせることで、動画の各シーンを「理解」することが可能となった。具体的には、100以上の映像認識AIを活用し、シーンを構成する人物、車、建物、動物、樹木などの自然物、天気などのさまざまな物体や環境の変化を個別に認識する。その認識結果のみをLLMが分析することで、動画全体を分析する場合と比較して、利用者が求めるシーンだけを効率的に見つけ出せることができ、目視により動画を繰り返し確認する必要がなくなる。

2.ファインチューニングで動画を正確に解釈

 生成文章の品質を向上させるため、対象分野のサンプル映像を使ってLLMを事前にファインチューニングする。例えば、ドライブレコーダーの動画に適用する場合、事前に道路交通関係の動画を分析させることで、LLMが専門知識を備え、動画内で起きた出来事を正確に理解できるようになり、ハルシネーション(嘘にあたる内容の生成)に対応しながら信頼性の高い報告書を作成できるという。

3.大規模な環境を要せず数秒間で報告書を作成

 同社が開発したコンパクトで高性能なLLMと、高速なデータ検索システムにより、1時間以上の動画からでも、目的のシーンの動画と説明文章を数秒間で作成可能だという。

 NECは本技術をドライブレコーダーの動画から事故調査報告書を作成するユースケースに適用し、検証を行った。その結果、従来は手作業で行っていた事故および事故原因となったシーンの探索や、報告書案の作成を自動化し、報告書作成にかかる時間を半減できることを確認したという。

 2024年3月に、本技術の試用版を損害保険会社や自動車メーカーなどに提供開始し、ドライブレコーダーの動画を活用した事故報告書などの資料作成を支援する予定だとしている。さらに、今後は本技術を看護・介護記録の作成支援、製造・建設現場での作業記録の作成支援、自動運転用AIに学習させる事故シーンの収集と説明文の作成、放送映像向け特定コンテンツの収集とナレーション原稿の作成など、さまざまなユースケースに展開する予定だとしている。