カメラが初めて登場して以来、人々はレンズを自分に向け、いわゆるセルフィー(自撮り)を撮影してきた。セルフィーという言葉が初めて生まれたのは2002年のことだ。この時点でセルフィーのアップグレードは待ったなしの状況だったため、研究者チームが次世代のセルフィーとも言えるものを開発した。簡単に撮影できる自分自身の3Dモデル「ナーフィー」で、これを使って周囲で何が起こっているかを他の人に見せることができる。
なぜ私たちは自撮り写真を撮り、シェアするのでしょうか?虚栄心でしょうか?それとも、仲間からの賞賛や承認を切望しているからでしょうか?理由は何であれ、自撮り写真は私たちの生活を注意深く管理され、厳選された一枚の断片を映し出してくれるものです。では、なぜもっとシェアしないのでしょうか?ワシントン大学とGoogle Researchの研究者たちは、ある瞬間をより包括的に捉えたスナップショットを作成する方法を考案しました。自撮り写真は、単なる2D画像ではなく、被写体を3Dでズームしたりパンしたりできる機能です。特別な機材は必要ありません。必要なのは、カメラ付きスマートフォンとある程度のCPU処理能力だけです。

シーンを3Dで撮影するには、通常、LIDARスキャナー(光検出と測距)を搭載した特殊なハードウェアが必要です。LIDARスキャナーはレーザーを使って物体までの距離を測定し、3D表現を再現します。iPhone 12 Proや12 Pro MaxなどのスマートフォンにはLIDARセンサーが内蔵されていますが、これらのデバイスは必ずしも安価で入手しやすいものではありません。ナーフィーを作るには、ユーザーはスマートフォンで様々な角度から自分の動画を撮影するだけで済みます。その際、常にフレーム内に収まるように、デバイスを前後に振る必要があります。
このビデオデータから3Dモデルを作成するには、Neural Radiance Fields(略してNeRF)と呼ばれる手法を使用します。これは、物体の画像を様々な角度から複数撮影し、その2次元データすべてを使用して計算を行い、後から操作したり、さまざまな視点から表示したりできる3次元表現を生成するものです。NeRF手法の問題点は、撮影対象がプロセス全体を通して完全に静止している必要があることです。無生物であれば問題ありませんが、常に微妙に動いている人間を撮影する場合、NeRF手法では、多くの場合、複数の角度から同時に人物の画像を撮影する大型カメラアレイを活用します。しかし、LIDARハードウェアと同様に、カメラアレイは高価で扱いにくい場合があります。
動画撮影中にスマートフォンを自分の前で前後に振るだけで、複数の角度から静止画を簡単に生成できますが、この処理には数秒かかる場合があり、被写体ができるだけ静止しようと努力しているにもかかわらず、常に動いています。この問題を解決するために、研究チームは、フレームを比較して被写体がフレーム間でどれだけ動いたかを判断し、必要な変形を自動的に計算して、抽出された不完全な2次元画像データを調整し、正確でインタラクティブな3Dモデルを作成するために使用できる新しい手法「Deformable Neural Radiance Fields(略してD-NeRF)」を開発しました。
ナーフィーが実際に普及すれば、Instagramでシェアされた豪華な食事の写真を見ている人が、レストラン全体をパンして眺めることができるようになるかもしれません。あるいは、アマチュアのファッショニスタが新しいトップスを試着しているナーフィーをシェアした場合、他の人はカメラの位置を調整して、それに合うパンツを見ることができるようになるでしょう。これはソーシャルメディアに全く新しい視点をもたらす可能性のある技術ですが、同時に、私たちの多くが机の下に隠れてこっそりパジャマ姿でビデオ通話をしているような状況では、ナーフィーは私たちの生活を少し侵害的に覗き見させてしまうかもしれません。