ニュース

Google、機械学習ベースの強力な画像認識技術をAPI化、開発者が自身のアプリやサービスに組み込み可能に

 米Googleは2日、同社の画像認識技術をAPIとして提供する「Google Cloud Vision API」のLimited Preview版をリリースした。

「Google Cloud Vision API」による画像認識例。画像から読み取ったオブジェクトやシーンが結果として表示されている。OCRによる文字認識も可能だ

 Googleは、機械学習をベースにした高度な画像認識技術を持っている。この画像認識技術は、写真ストレージアプリ「Googleフォト」などで使用されており、高精度な自動タグ付けや人物の識別機能などを実現させている。開発者は、Cloud Vision APIを使用することで、Googleの最先端の画像認識技術を自身のアプリやサービスに組み込むことが可能。画像内の物体を理解することで実現する、次世代のサービス開発を促す。

 APIの主な機能として、画像内で最も支配的なオブジェクトを選定してラベル付けが行えるほか、眼や鼻、口の位置の数値化による顔の識別、喜び・怒り・驚き・悲しみなどの感情の識別が可能だ。人工物や自然などランドマークのほか、製品・企業ロゴも識別できる。また、OCR機能を搭載し、画像内の言葉を複数の言語で認識可能。

 Googleでは、Cloud Vision APIを使用したデモンストレーション動画を公開している。動画には、「GoPiGo」と呼ばれるカメラを搭載したRaspberry Piボットが登場する。ボットが撮影した画像はAPIに送信され、認識結果をリアルタイムに受け取ることで、笑顔の人に向かって走行するようプログラムされたボットが、笑顔の女性に駆け寄る様子を見ることができる。

(山川 晶之)