DALL-Eミニはサリーを着た女性に夢中だが、その理由は誰も知らない

DALL-Eミニはサリーを着た女性に夢中だが、その理由は誰も知らない

DALL-E Miniの唯一の限界は、あなたの独創的なプロンプトとその不思議な筆致です。誰でもアクセスできるこのAIインターネット画像ジェネレーターは、あなたが思いつくあらゆるシナリオを、ぼやけた、歪んだ、溶けていくような近似画像へと変化させます。サインフェルドの悪夢?お見事です。動物、乗り物、著名人を様々な組み合わせで描いた法廷スケッチ?簡単です。かつて見たことのない、無知な人間の頭脳から生まれたホラーモンスター。ええ、何でもいいです。

しかし、DALL-E Miniに文字通り何も与えないと、すぐに自らの「想像」の限界を露呈してしまいます。指示やガイダンスが与えられないと、AIモデルは行き詰まってしまうようです。全く指示を与えなくても、プログラムは間違いなくサリー(南アジアで一般的に着用されている衣装)を着た女性の画像を返すでしょう。

Rest of Worldの報道によると、このツールの開発者であるボリス・デイマ氏でさえ、その理由を正確には把握していないという。「非常に興味深い現象ですが、なぜこのようなことが起こるのかは分かりません」と、デイマ氏はRest of Worldに語った。

Gizmodoは、Rest of Worldの報告を検証するため、独自の検索を試みた。DALL-Eのミニ検索を10回連続で実行したところ、サリーを着た南アジアの女性(または女性たち)に似た画像が少なくとも1枚表示された。
Gizmodoは、Rest of Worldレポートの検証のため、独自の検索を試みた。DALL-E miniを10回連続で実行したところ、サリーを着た南アジアの女性(または女性たち)に似た画像が少なくとも1枚表示された。画像:Gizmodo / DALL-E mini

DALL-E Miniとは何ですか?

DALL-E Miniは、OpenAIの強力な画像生成ツールであるDALL-E 2に着想を得ました。DALL-E 2が生成する画像は「mini」が生成する画像よりもはるかにリアルですが、その代償として、一般のインターネットユーザーが自由に扱えるほどの計算能力を必要としません。定員に限りがあり、順番待ちリストもご用意しています。

そこでデイマ氏は、OpenAIとは無関係でありながら、より限定的ではない独自のバージョンを作成し、2021年7月にリリースしました。ここ数週間で、このバージョンは爆発的な人気を博しています。デイマ氏はRest of Worldに対し、このプログラムは毎日約500万件のリクエストを処理していると語りました。月曜日の時点で、DALL-E MiniはOpenAIの要請によりCraiyonに改名され、新しいドメイン名に移行しました。

他の人工知能モデルと同様に、DALL-E Mini/Craiyonは学習入力に基づいて出力を生成します。Miniの場合、プログラムは1,500万枚の画像とキャプションのペア、さらに1,400万枚の画像、そしてオープンインターネットの混沌とし​​たデータを用いて学習されました。

その他の国から:

DALL·Eミニモデルは、3つの主要データセットに基づいて開発されました。300万枚の画像とキャプションのペアを含むConceptual Captionsデータセット、1,200万枚の画像とキャプションのペアを含むConceptual 12Mデータセット、そして約1,500万枚の画像からなるOpenAIのコーパスです。Dayma氏とDALL·Eミニの共同開発者であるPedro Cuenca氏は、このモデルはインターネット上のフィルタリングされていないデータを使用して学習されたため、データセットに未知で説明のつかないバイアスが生じやすく、それが画像生成モデルに影響を及ぼす可能性があると指摘しました。

そして、この根底にあるデータは、ほぼ間違いなくサリー現象、つまりサリーをめぐる情勢と何らかの関係があると言えるでしょう。

画像: Gizmodo / DALL-E mini
画像: Gizmodo / DALL-E mini

DALL-E Mini が Saris に引っかかってしまうのはなぜですか?

デイマ氏は、DALL-E Miniに入力された元の写真セットには、サリーを着た南アジア人女性の画像が多数含まれていた可能性があると示唆した。また、この奇妙な現象はキャプションの長さとも関係がある可能性があると指摘した。AIは0文字のプロンプトを短い画像の説明と関連付ける可能性があるからだ。

しかし、ロンドンのクイーン・メアリー大学のAI研究者マイケル・クック氏は、Rest of Worldに対し、過剰代表説については確信が持てないと語った。「機械学習システムは通常、逆の問題を抱えています。つまり、白人以外の人々の写真を実際には十分に含めていないのです」と彼は述べた。

むしろクック氏は、原因はデータフィルタリングプロセスの言語バイアスにあるのではないかと考えている。「いろいろ調べているうちに気づいたのは、こうしたデータセットの多くが英語以外のテキストを削除しているということです」と彼は述べた。例えば、ヒンディー語を含む画像のキャプションが削除され、裏付けとなる説明文やラベルのない画像が原始的なAIスープの中に漂っている可能性があると彼は説明した。

今のところ、クック氏もデイマ氏もそのアイデアが実証されていないが、どちらもAIによくある問題の好例だ。人間によってプログラムされ、訓練された人工知能は、その作成者と同じくらいしか完璧ではない。画像生成器にクッキーを与えれば、大量のクッキーが吐き出されるだろう。そして、私たちは地獄に住んでいるため、AIは人間の偏見や固定観念という残念な重荷を背負っているのだ。

「サリーを着た女性」の画像が、自由なインターネットの奥底から発せられた原始的なメッセージであると考えるのは楽しいかもしれないが、現実には、それはデータの偶然の産物、あるいは単なる偏見の副産物である可能性が高い。サリーを着た女性は謎だが、AIの既存の問題は謎ではない。

Tagged: