ニュース

NTT、編集映像に使われている元映像を1フレームの誤差なく特定するシーン探索技術を開発

探索時間は目視の1万分の1以下

 日本電信電話株式会社(NTT)は10日、米PIX SYSTEMと共同で、高精度シーン探索技術を開発したと発表した。多数の映像から編集映像に使われている映像ショットを1フレームの誤差なく特定するという。

 映像から抽出した特徴データを利用して、すでに編集された映像に用いられた元の映像を、多数の類似した映像の中からフレームレベルで誤差なく高速に特定するもの。目視で行った場合と比較して、探索時間を1万分の1以下に削減できるとしている。

フィールド検証における映像制作ワークフロー上での利用

 音や映像の信号の断片を探索のキーとして、多数の音楽や映像を格納したデータベースから一致するデータを探し出す「ロバストメディア探索(RMS)技術」を拡張。識別性を保持しつつ輝度変動に対してロバストな情報を特徴値として利用する技術を新たに開発した。1つの映像データから密度の異なる2つの特徴データを生成し、探索範囲を絞り込むというデータ判定の構成を採用することで、探索時間の削減と省メモリ化を実現している。また、映像だけでなく音声でも適用可能としている。

 映像の種類や画質にかかわらずフレーム位置を検出できるフレーム検出方法も開発。映像の同期ずれ量に着目したフレーム同期、成否判定処理を行うことで、実用的な検出精度(90%以上)を実現している。また、ショット開始・終了位置の検出に適応的なしきい値を設定することで、切り替え区間外の誤検出を抑えつつ、微小な変化位置も検出可能。なお、類似フレームの最頻値を利用しフレームレベルでのショットを特定する従来の方式では、類似映像が連結された編集映像の検出がほぼ不可能だったとしている。

高精度シーン探索実現イメージ

 NTTでは2013年7月からPIXとフィールド検証を行い、実際の映画・映像の編集にかかわるエンドユーザーへのデモンストレーション、ヒアリングを通じて、検出精度や検索精度について実用的なレベルとの評価を得たとしている。今後は、検索技術の高度化やネットワークを利用した遠隔協調制作の高機能化を図るほか、同技術を利用したビジネストライアルを株式会社エヌ・ティ・ティ・データで実施する予定だ。

(山川 晶之)