DeepMind社の2次元画像から3次元画像を生成するAI技術 GQN

GQN(Generative Query Network)とは、２次元画像から３次元画像を生成する技術のことです。

GQNは、グーグル傘下のAI企業DeepMind社によって作られました。

たった１枚の画像からでも、画像には映っていない空間情報をAI(人工知能)が推測できるのです。

左側が２次元画像で、それを元にして右の３次元画像が生成されております。

f:id:monte4423:20190824014533g:plain — 引用元：DeepMind

もちろん、複数枚でも、画像に映っていない空間情報をAIは推測できます。

GQNは、表現ネットワークと生成ネットワークというふたつの機能から構成されています。

表現ネットワークは、AIに設定された視野の範囲内の空間情報を取得し、状況を認識します。

表現ネットワークは、ちょうどヒトが空間を一挙に全方位から認識できなように、空間に関する部分的な情報しか認識できないです。

それに対して、生成ネットワークは、表現ネットワークが認識した空間情報をもとにして、まだ認識していない空間に関する情報を生成します。

つまり、まだ知らない空間について、推測するのです。

そして、表現ネットワークが認識した空間情報と生成ネットワークが生成した空間情報を総合することによって、空間の全体像を認識するのです。

GQNで、数枚の画像からVR空間が生み出されるようになれば、VR空間の開発費用がかなり安くなりそうですね！　

きっと、VRゲームも安くなるはず🎶😄

VRとは、現物・実物ではないが機能としての本質は同じであるような環境を、ユーザの五感を含む感覚を刺激することにより、理工学的に作り出す技術およびその体系のことです。

以下の動画のように、VRゴーグルをつけて、VR体験をします。

今回の記事は以上になります。

最後までお付き合いいただき、ありがとうございますm(_ _)m

AI(人工知能)時代、AIを使い倒す！

AI(人工知能)時代に、AIを使い倒すために、ブログをはじめました！

DeepMind社の2次元画像から3次元画像を生成するAI技術 GQN