写真は懐かしい思い出を甦らせてくれますが、動画は何年も前に訪れた熱帯の地へとタイムスリップさせてくれます。そこでワシントン大学の研究者たちは、写真の撮影場所を別途参照することなく、一枚の静止画から動画に変換できるディープラーニング技術を開発しました。
これは機械学習の新たな活用例であり、この技術の潜在的なメリットを実証しています。MyHeritageなどの企業が古い親戚の写真に命を吹き込むために活用している技術に似ていますが、この新しいアプローチは、水、煙、雲といった自然の流れの現象に焦点を当てています。ワシントン大学ポール・G・アレン・スクール・オブ・コンピュータサイエンス&エンジニアリングで開発されたこのモデルは、ナイアガラの滝への最近の旅行の静止画など、ユーザーからの入力を必要としません。

ディープラーニング手法を用いた自動画像処理のプロセスは、他のあらゆる自動化された画像処理と同様に、モデルのトレーニングから始まります。今回のケースでは、川、滝、さらには海の映像など、流体の動きが顕著に表れる動画を数千本も使用しました。このプロセスは、ニューラルネットワークが開始フレーム1つだけに基づいて動画の動きを予測することから始まります。その後、予測結果と実際の結果を比較することで、モデルは流体の動き方を示す視覚的な手がかりを徐々に特定し、予測の不正確さを修正できるようになりました。
訓練されたモデルは静止画に適用され、各ピクセルがフレームごとにどのように動くかを判断して短いアニメーションを作成できます。しかし、川や滝は永続的な現象であり、ピクセルの流れは動き始める場所で常に補充される必要があるため、独自の課題が生じます。研究者たちは、「対称スプラッティング」と呼ばれる別の手法を開発しました。これは、時間的に前進する流れの動きだけでなく、時間が後退する場合の動きも予測します。この手法により、2つの異なるアニメーションが生まれ、これらを巧みに組み合わせることで、永続的でリアルな動きが完璧にループするアニメーションが実現しました。

結果が写真のようにリアルに近づくこともありますが、脳が微妙な視覚的手がかりを捉え、見ているものの信憑性について警告を発することもあります。研究者が開発したディープラーニング手法が考慮していない点の一つは、流れる水や煙が光を歪めることです。滝の底の波紋は、脳が見慣れている複雑な方法で反射を歪め、正確に再現されていないと非常に目立ちます。霧や煙が背後のものを覆い隠し、歪ませるのも同様です。
しかし、これらは多くの場合、ソース ビデオの大規模なデータベースでトレーニングを重ねることで克服できる問題であり、最終的には、写真を撮影した後に照明を完璧に調整および微調整できるスマートフォンのオプションに加えて、静的なショットに再び命を吹き込むことができるようになるかもしれません。