ニュース
ネットにある無数の写真から街の3Dモデルを生成、Googleがコンピュータービジョンの最新技術を披露
(2015/11/10 18:33)
グーグル株式会社(Google)は10日、アジア各都市から報道関係者を集めて開催する「Google APACプレスイベント」を、同社本社のある六本木ヒルズ(東京都港区)にて実施した。イベントでは、マシンラーニングとコンピュータービジョンに関して、同社の動向を紹介した。本記事では後者について紹介する。
ネットにアップされた膨大な写真から継ぎ接ぎして1つの3Dモデルを構築
コンピュータービジョンについて説明したスティーブン・ザイツ博士(ワシントン大学)は、数年前からインターネット上にアップロードされた膨大な写真を使って、イタリアのトレヴィの泉など、観光名所を3Dモデル化できないかチャレンジを始めたという。
3Dモデルの制作には、彼のもとで学んでいた大学院生が制作した写真の自動マッチングシステムが大きく寄与した。システムは、撮影された位置や方向を写真から識別でき、写真をテクスチャとして継ぎ接ぎし、3Dモデルを制作した。次にザイツ氏は、ローマの写真100万枚をデータセットとして市全体のモデル化に挑んだ。500台程度のコンピューターを使用し、1日でローマ市全体を3Dで再現した。
この技術はさらに進化し、過去10年間にさかのぼったタイムラプス動画の制作に移行する。タイムラプス動画では、定点カメラで定期的に撮影する必要があり、10年前に時間を戻すのは現実的な話ではないが、インターネット上にアップロードされた過去の写真から、ラスベガスの10年の移り変わりを定点カメラで撮影したかのように再現した。写真は時間帯などバラバラで撮影されているが、色味や明るさをすべて補正している。3Dモデルがベースなので、タイムラプスしつつカメラを移動させることも可能だ。
また、類似のテクノロジーを使用した例として、Googleが提供しているカメラアプリに搭載された「レンズぼかし」を紹介した。撮影時にカメラを少しずつ上に移動しながら高速撮影することで、複数のイメージから深度マップを作成する。被写体、背景とカメラの距離を計測でき、背景のみにブラーを施すことで被写界深度の浅い写真を撮影できる。また、好きな位置にピントを合わせることも可能。
YouTubeがVR動画に対応、Googleの「JUMP」で誰でも視差付きVR動画の制作・投稿が可能
ザイツ氏は続いて、コンピュータービジョンとしてバーチャルリアリティの取り組みを紹介した。ザイツ氏は「仮想現実の目的はユーザーをどこかに連れて行く」ことだとしており、家の中にいても氷河を見渡すといった体験が得られる。ただし、深度がないため遠近感がなく、あたかもその場にいるとは感じられないという。
そのため、両方の目にわずかに異なるイメージを見せることで立体感を出す「立体視」が必要になってくるが、360度の映像と立体視を同時に撮影するにはハードルが高かったという。Googleでは、360度をステレオ(視差付き)で撮影できるVRシステム「JUMP」を開発。撮影には、16台のGoProを円状に配置する「JUMPカメラリグ」を使用することで、360度かつステレオでの撮影を実現した。
撮影した16の映像は「JUMPアセンブラ」により、高品位なVR映像に変換する。通常、動画を16台繋ぎ合わせただけでは境目ができてしまうが、JUMPアセンブリでは、色補正や映像処理を行うことで縫い目を無くしている。撮影された映像は、3Dのアライメント技術により深度を計測し、深度に応じた映像に変化させることで立体視を実現している。カメラの位置を変化させることも可能。VR映像の変換は、PC1台では数カ月かかるエンコード作業に匹敵するが、JUMPアセンブラではGoogleクラウドのマシンパワーにより、エンコード時間を短縮している。
作成したVR映像をユーザーが視聴する手段だが、Googleでは5日にYouTubeをステレオのVR映像に対応させた。スマートフォンをマウントしてHMDディスプレイとして使用できる「Google Cardboard」などで、JUMPコンテンツを含むVR映像を手軽に楽しむことができるようになった。