アーティストたちは機械を訓練し、サイケデリックな内なるビジョンを顕現させました。その結果、人間とピクサーのハイブリッドが解き放たれ、深い恐怖、嫌悪感、嫌悪感、吐き気、恐怖、そして人類の最高の可能性への即時的な認識を引き起こします。「Toonify」と名付けられたこのプロジェクトは、私たちが神の目を見つめることを可能にします。私の唯一の疑問は、クリエイターたちはなぜこれを作ったのか、どのように機能するのか、そしていつ私にもそれが訪れるのか、でした。(2020年9月25日午後2時30分更新:私たち全員に訪れました。)

最初の質問への答えは簡単だった。機械学習の探求者であるジャスティン・ピンクニーとドロン・アドラーにとって、ロバート・デ・ニーロと『モンスターズ・インク』に登場する無名の生物を交配させることは、未知への刺激的な探求だった。楽器を習得したり古いカメラを修理したりするのと同じように、彼らにとっての楽しい挑戦は、機械学習モデルを分解して再構築し、人間の頭を漫画のようなサイズに押しつぶすことだった。2つ目の質問には、もう少し技術的な背景が必要だった。
ToonifyはPix2pixHDという画像変換モデル上で動作します。このモデルは、画像を様々なスタイルに変換する方法を理解しています。例えば、靴の非常にラフなスケッチを、その靴を全く新しいイメージで再現した写真レンダリングに変換できます。「フクロウの残りの部分を描いて」というミームのように見えるかもしれませんが、この劇的な結果の裏には、モデルがそこに至るまでに行なった学習が隠されています。
しかし、Pix2PixHDモデルを学習させるには、大量のビフォーアフター画像を見せる必要があります。Pix2PixHDモデルで極悪非道なトゥーン化結果を得るために、ピンクニーとアドラーは既存の人物とそれに対応するトゥーンのペアを大量に用意する必要がありました。一体どうやってそれらを見つけたのでしょうか?ピクサーに頼むこともできたでしょう。しかし彼らは、トゥーンマンの忌まわしい系譜を生成し、独自のデータセットを作成したのです。
まず、ドロン・アドラーはStyleGANモデル(「This Person Does Not Exist」と同じ技術)をディズニー、ピクサー、ドリームワークスのキャラクターで訓練し、その特徴が典型的な漫画的特徴であることを認識できるようにした。サイト「This Person Does Not Exist」は、その名の通り、完全にコンピューターで生成された写実的な人物をランダムに生成する。モデルは次に、「This Person Does Not Exist」の世界から偽の人物を自動的に選び出し、漫画的な特徴を付け加えた。しかし、StyleGANはコンピューターで生成された画像、漫画、写真のスタイルをすべて均等にまとめてしまうため、同じ人物がリアルな髪の毛の房、CGIで作られたミートボールのような頬、不気味なほど平らな手描きの目を持っている可能性がある。
モデルは、視覚の煉獄に閉じ込められた、目を見開いていながら感傷的な作品のカタログを吐き出しました。

ここでジャスティン・ピンクニーが彼のモデルを導入し、アドラーのモデルと融合しました。
ピンクニーは、各画像から望ましい特徴を抽出する「レイヤースワッピング」プロセスを開発した。漫画の半分は、結果として得られるトゥーン化された顔の構造にのみ影響を与え、人間の半分は照明やその他の高解像度のディテールを提供する。(ピンクニーが以前、浮世絵の肖像画でこの手法をどのように用いたかについては、こちらで、分かりやすい説明はこちらでご覧いただけます。)

素晴らしい!我々は地獄の領域に入った。
ここで問題となるのは、自分の顔をトゥーン化したい場合、レイヤースワップ方式(モデル2と呼ぶ)では膨大な時間と計算能力を消費してしまうことです。このモデルは写真を直接変換するのではなく、エンコードされた顔データを扱うため、アドラーは「This Person Does Not Exist」の世界から「人物」を選んだのです。このモデルは、あなたの顔に非常に近い近似値を「見つける」必要があります。私のTwitterアバターとほぼ完璧に一致するものを見つける方法は以下のとおりです。
@Norod78 が潜在空間で私を見つけてくれた! pic.twitter.com/P8z0ym4iTo
— ホイットニー・キンボール(@whitneykimball)2020年9月23日
したがって、実際の顔を漫画化していなくても、モデル自体はかなりうまく機能しますが、検索プロセスにはしばらく時間がかかります。
さて、靴のスケッチと写真の話に戻りましょう。最終的な写真トゥーンモデル(Pix2PixHD)を学習させるため、モデル2はランダムに1万人の偽の人物を選択し、トゥーン化しました。そして、モデル3にこれらの人物とトゥーンのペアをすべて見せました。すると、モデル3は、全員が写真とほぼ一致する必要があり、目はビリヤードのボールのように見える必要があることを学習しました。
これで、Model Three は目指す外観を理解しました。

そこにあるのは、私が渇望する毒だ。
ピンクニー氏の説明によると、彼らはモデルを漫画で少しだけ訓練し、結果が本来の人間の顔により近づくようにしたという。あるTwitterユーザーが、漫画っぽさのレベルを上げるとどうなるかを示した。ひどい結果だ!
人間とアニメの顔の特徴に関する膨大なデータを持つこの研究者たちのロボット子供は、逆の用途に使えるのだろうか? 膨大な時間と労力を費やすことで、確かに可能だろう。しかし、1) なぜ? そして2) アドラー氏はギズモードに対し、結果はおそらくSnapchatのフィルターのようなものになるだろうと指摘した。人間の特徴はあるものの、肌の質感が色褪せたアニメ風になってしまうのだ。ピンクニー氏によると、生成ネットワークはより詳細な情報があればより効果的に機能する傾向があるという。つまり、「もしバート・シンプソンが肉でできていたとしたら?」という最も切実な疑問は、未だ答えが出ていないままなのだ。

それでも、私たちは彼らを徹底的に困らせ続けました。だって、実際、見た目が悪くなるなんてありえないでしょうから。彼らは、自分たちの努力がこうした種類の入力にはまったく当てはまらないことを十分承知しながらも、もちろん、いいですよ、チワワと顔のように見えるジャガイモをトゥーン化します、と言いました。


自分で試してみて、神に祈ってください。