Nvidiaは、AIに平面の2D画像からテクスチャ付きの3Dモデルを瞬時に生成する方法を教えた

Nvidiaは、AIに平面の2D画像からテクスチャ付きの3Dモデルを瞬時に生成する方法を教えた

スケッチや物体の写真から、3Dプリンターで複製したり、ビデオゲームで再生したり、映画の中で視覚効果を使って生き生きと表現したりできるような、完全な3Dモデルを作成するには、大量の画像から作業するデジタルモデラーのスキルが必要です。しかし、NVIDIAはニューラルネットワークをトレーニングし、たった1枚の写真からテクスチャ付きの3Dモデルを生成することに成功しました。

3Dモデルを自動生成する同様のアプローチはこれまでにも見られましたが、正確な結果を得るには様々な角度から撮影した一連の写真が必要だったり、画像内の特定のオブジェクトの寸法や形状をソフトウェアが把握するために人間のユーザーからの入力が必要だったりしました。どちらも問題解決への間違ったアプローチではありません。3Dモデリングのタスクに改善が加えられれば、高度なスキルを持たない人でも、より幅広いユーザーがツールを利用できるようになるため、歓迎すべきことです。しかし、同時に、こうしたソフトウェアの潜在的な用途も制限されてしまいます。

写真: <a href=
Nvidia” class=”size-full wp-image-2000085520″ /> 写真: Nvidia

今週、ブリティッシュ コロンビア州バンクーバーで開催される神経情報処理システムに関する年次会議で、Nvidia の研究者が新しい論文「補間ベース レンダラーによる 3D オブジェクトの予測の学習」を発表します。この論文では、微分補間ベース レンダラー (略して DIB-R) と呼ばれる新しいグラフィック ツールの作成について詳しく説明しています。このレンダラーは、それほど威圧的ではないようです。

NVIDIAの研究者たちは、DIB-Rニューラルネットワークを複数のデータセットでトレーニングしました。これには、過去に3Dモデルに変換された写真、複数の角度から提示された3Dモデル、特定の被写体に複数の角度から焦点を当てた写真のセットなどが含まれます。鳥などの特定の被写体の余分な次元を外挿する方法をニューラルネットワークにトレーニングするには約2日かかりますが、完了すると、これまで分析されたことのない2D写真に基づいて、100ミリ秒未満で3Dモデルを生成できるようになります。

この驚異的な処理速度こそが、このツールを特に興味深いものにしている。なぜなら、ロボットや自動運転車などの機械が世界を見て、目の前にあるものを理解する方法を大幅に改善する可能性を秘めているからだ。カメラからのライブビデオストリームから取得した静止画を瞬時に3Dモデルに変換できるため、例えば自動運転車は避けるべき大型トラックのサイズを正確に測定したり、ロボットはランダムな物体の推定形状に基づいて、その物体を適切に拾う方法を予測したりすることができる。DIB-Rは、人物を識別して追跡する任務を負った防犯カメラの性能を向上させることさえできる。瞬時に生成される3Dモデルにより、人が視界内を移動する際に画像照合が容易になるからだ。そう、どんな新しいテクノロジーにも、恐ろしさとクールさが半々ずつあるのだ。

Tagged: