ニュース

ネットにある無数の写真から街の3Dモデルを生成、Googleがコンピュータービジョンの最新技術を披露

（2015/11/10 18:33）

　グーグル株式会社（Google）は10日、アジア各都市から報道関係者を集めて開催する「Google APACプレスイベント」を、同社本社のある六本木ヒルズ（東京都港区）にて実施した。イベントでは、マシンラーニングとコンピュータービジョンに関して、同社の動向を紹介した。本記事では後者について紹介する。

ワシントン大学のスティーブン・ザイツ博士

ネットにアップされた膨大な写真から継ぎ接ぎして1つの3Dモデルを構築

　コンピュータービジョンについて説明したスティーブン・ザイツ博士（ワシントン大学）は、数年前からインターネット上にアップロードされた膨大な写真を使って、イタリアのトレヴィの泉など、観光名所を3Dモデル化できないかチャレンジを始めたという。

　3Dモデルの制作には、彼のもとで学んでいた大学院生が制作した写真の自動マッチングシステムが大きく寄与した。システムは、撮影された位置や方向を写真から識別でき、写真をテクスチャとして継ぎ接ぎし、3Dモデルを制作した。次にザイツ氏は、ローマの写真100万枚をデータセットとして市全体のモデル化に挑んだ。500台程度のコンピューターを使用し、1日でローマ市全体を3Dで再現した。

三角の図形がカメラの位置と方向、上部がトレヴィの泉の3Dモデル

他の観光地でも同様に3Dモデルを作成可能だという

「ローマは1日にしてならずと言われてますが、1日で作ってみました」と、ローマ市全体の3Dモデルを再現した

「セントピーターズ大聖堂」の3Dモデル。このモデルもインターネット上にアップロードされている複数の写真から継ぎ接ぎで生成されている

　この技術はさらに進化し、過去10年間にさかのぼったタイムラプス動画の制作に移行する。タイムラプス動画では、定点カメラで定期的に撮影する必要があり、10年前に時間を戻すのは現実的な話ではないが、インターネット上にアップロードされた過去の写真から、ラスベガスの10年の移り変わりを定点カメラで撮影したかのように再現した。写真は時間帯などバラバラで撮影されているが、色味や明るさをすべて補正している。3Dモデルがベースなので、タイムラプスしつつカメラを移動させることも可能だ。

　また、類似のテクノロジーを使用した例として、Googleが提供しているカメラアプリに搭載された「レンズぼかし」を紹介した。撮影時にカメラを少しずつ上に移動しながら高速撮影することで、複数のイメージから深度マップを作成する。被写体、背景とカメラの距離を計測でき、背景のみにブラーを施すことで被写界深度の浅い写真を撮影できる。また、好きな位置にピントを合わせることも可能。

タイムラプス動画は、初めは1968年から2003年にかけてのラスベガスの街全体で行おうとしたが、写真がそろわず10年間で行った

Googleが提供する「Googleカメラ」では、カメラを上に移動しながら高速連写することで深度を測定し、被写体と背景を識別することで任意の場所を一眼レフカメラのようにぼかすことができる

ラスベガスの10年の移り変わりをタイムラプス動画に

YouTubeがVR動画に対応、Googleの「JUMP」で誰でも視差付きVR動画の制作・投稿が可能

　ザイツ氏は続いて、コンピュータービジョンとしてバーチャルリアリティの取り組みを紹介した。ザイツ氏は「仮想現実の目的はユーザーをどこかに連れて行く」ことだとしており、家の中にいても氷河を見渡すといった体験が得られる。ただし、深度がないため遠近感がなく、あたかもその場にいるとは感じられないという。

　そのため、両方の目にわずかに異なるイメージを見せることで立体感を出す「立体視」が必要になってくるが、360度の映像と立体視を同時に撮影するにはハードルが高かったという。Googleでは、360度をステレオ（視差付き）で撮影できるVRシステム「JUMP」を開発。撮影には、16台のGoProを円状に配置する「JUMPカメラリグ」を使用することで、360度かつステレオでの撮影を実現した。

初めに制作した、360度撮影とステレオ撮影を実現するためのカメラシステム。2台の一眼レフカメラを高速で回転させることで立体視映像を生成するのだが、動き物に弱かったという

次に制作したVRカメラシステム。「GoPro」をステレオ撮影用に2台セットしたものを円状に配置した

最終的には16台のGoProを綺麗に円状に配置することで完成に至った

円形のカメラリグは、GoProの「Odyssey」が初めて対応したという

　撮影した16の映像は「JUMPアセンブラ」により、高品位なVR映像に変換する。通常、動画を16台繋ぎ合わせただけでは境目ができてしまうが、JUMPアセンブリでは、色補正や映像処理を行うことで縫い目を無くしている。撮影された映像は、3Dのアライメント技術により深度を計測し、深度に応じた映像に変化させることで立体視を実現している。カメラの位置を変化させることも可能。VR映像の変換は、PC1台では数カ月かかるエンコード作業に匹敵するが、JUMPアセンブラではGoogleクラウドのマシンパワーにより、エンコード時間を短縮している。

　作成したVR映像をユーザーが視聴する手段だが、Googleでは5日にYouTubeをステレオのVR映像に対応させた。スマートフォンをマウントしてHMDディスプレイとして使用できる「Google Cardboard」などで、JUMPコンテンツを含むVR映像を手軽に楽しむことができるようになった。

16の映像をVR映像に変換する「JUMPアセンブラ」

1台のPCで数カ月かかる作業を、Googleクラウドを使用することで数時間に短縮

11月5日にYouTubeがVR映像の再生に対応した

「Nexus 5X」など大型スマートフォンに対応した新世代の「Google Cardboard」

（山川晶之）