マイクロソフトの最新AI動画ジェネレーター、奇妙な歯が偽物であることを明らかに

マイクロソフトの最新AI動画ジェネレーター、奇妙な歯が偽物であることを明らかに

マイクロソフトの研究者たちは今週、静止画から、まるで人が話しているかのような迫真の動画を生成できる新しいAIツール「VASA-1」に関する論文を発表しました。マイクロソフトはこの新しいツールをすぐに一般公開する予定はありませんが、非常に印象的です。まあ、歯をじっくり見なければ、確かに印象的です。あの歯茎をじっくり見てください。

VASA-1 モデルは、人間の顔の静止写真 (または、Microsoft が公開した例では、実際には存在しない人物の AI 生成の顔) を撮影し、音声ファイルを入力すると、顔のニュアンスと自然に見える動きを含む同期ビデオを生成できます。

繰り返しになりますが、Microsoftが下記に提供している動画の1つでご覧いただけるように、どれも非常に素晴らしい出来栄えです。しかし、VASA-1が苦戦しているように見えるのは、歯のレンダリングです。歯に焦点を合わせると、漫画のような質感になり、他の部分の超リアルな質感とは相容れない、わずかにアニメーションしているように見えます。

この動画の奇妙な点は、Gizmodoが下のGIF画像で示したように、全体をスロー再生するとさらに際立ちます。(下の人物が文字通り存在しないことを思い出すまで、誰かの容姿を批判するのは気が引けるかもしれません。)

GIF: マイクロソフト / ギズモード
GIF: マイクロソフト / ギズモード

以下に示す、Microsoft が提供している別のサンプル ビデオでは、歯の部分が同様に漫画のような質感を示しています。ただし、ソース マテリアルが静止画像とオーディオ ファイルのみであることを考慮すると、他の部分は非常にリアルに見えます。

どういうわけか、男性を映した動画では歯がやや目立たない。おそらく、モデルが男性が話す際に口をそれほど大きく開けていないことを示していたためだろう。しかし、よく見れば、やはり何かがおかしいと感じられるだろう。

研究者が指摘した興味深い点の一つは、このモデルが比較的高品質な動画を非常に高速に生成できることです。これは、OpenAIのSoraのような他のAI生成ツールでは困難と報告されている点です。実際、論文では、NVIDIA RTX 4090 GPUを1基搭載したデスクトップPCでわずか0.17秒の遅延が得られたと報告されています。

そして、そのスピードは、リアルタイム翻訳サービスなど、さまざまなアプリケーションにインスタントビデオを配信できるものです。

「私たちの手法は、リアルな顔と頭部の動きを備えた高画質の動画を提供するだけでなく、512×512の動画を最大40fpsでオンライン生成し、開始時の遅延も無視できるほどに抑えています。これにより、人間の会話行動を模倣した、生き生きとしたアバターとのリアルタイムのエンゲージメントへの道が開かれます」と、新たな論文には記されています。

研究者たちはこの種の技術の危険性を明確に認識しており、それがマイクロソフトがまだ一般公開の計画を急いで発表していない理由かもしれません。しかし、研究者たちは人類にとって有益だと考えるユースケースも特定しています。

「教育の公平性の向上、コミュニケーションに困難を抱える人々へのアクセシビリティの向上、困っている人々への交友関係や治療支援の提供など、AIがもたらすメリットは数多くあり、私たちの研究やその他の関連探究の重要性を浮き彫りにしています。私たちは、人類の幸福の向上を目指し、責任あるAI開発に尽力しています」と論文には記されている。

このような状況を踏まえ、この技術が適切な規制に従って責任を持って使用されることが確実になるまで、オンラインデモ、API、製品、追加の実装詳細、または関連するサービスをリリースする予定はありません。」

この種の技術で起こり得る詐欺の数を考えると、それはおそらく良い考えでしょう。何しろ、2024年のアメリカ大統領選挙まであと7ヶ月です。そして、世界的なファシズムの脅威はすぐには消えそうにありません。人類は今、AIが生成する偽情報に対して本当に無力だと感じています。そして、マイクロソフトのような大企業は、インターネット上の事実上すべてが偽物になる前に、潜在的な被害を最小限に抑えるために全力を尽くすべきでしょう。

Tagged: