AI画像生成器は性別や文化的な偏見を日常的に表示する

AI画像生成器は性別や文化的な偏見を日常的に表示する

もしあなたが地球上の12フィートの覆われた穴で育ち、最新バージョンのStable Diffusion AI画像ジェネレーターを実行するラップトップしか持っていなかったとしたら、女性エンジニアなど存在しないと思うでしょう。

米国労働統計局によると、エンジニアリング分野では女性の割合が著しく低いことが示されていますが、2018年の平均では、エンジニアリング職に就く人の約5分の1を女性が占めています。しかし、安定拡散法を使って「エンジニア」と表示した場合、表示されるのはすべて男性です。安定拡散法が現実と一致するとすれば、「エンジニア」というプロンプトに基づいて表示される9枚の画像のうち、1.8枚に女性が映っているはずです。

Stable Diffusion の AI 画像ジェネレーターでさまざまな種類の「エンジニア」を試すと何が起こるか。
Stable DiffusionのAI画像ジェネレーターで様々な「エンジニア」を試すとどうなるか。スクリーンショット:Stable Diffusion/Hugging Face

Hugging Faceの人工知能研究者、サーシャ・ルッチオーニ氏は、画像を生成する機械学習モデルにおけるバイアスを、おそらく最も効果的に示すシンプルなツールを開発しました。安定拡散エクスプローラー(Stable Diffusion Explorer)は、AI画像生成器が「野心的なCEO」と「協力的なCEO」のどちらを考えているのかを示します。前者の記述子では、生成器は様々な黒と青のスーツを着た多様な男性像を表示します。後者の記述子では、女性と男性が同数表示されます。

この2つのグループの違いは何でしょうか?安定拡散モデルによると、最初のグループは「野心的なCEO」、2番目のグループは「協力的なCEO」を表しています。
このモデルに根付いたバイアスを探るための簡単なツールを作成しました:https://t.co/l4lqt7rTQj pic.twitter.com/xYKA8w3N8N

— サーシャ・ルッチョーニ博士🦋🌎✨🤗 (@SashaMTL) 2022年10月31日

AIによる画像バイアスの問題は目新しいものではないが、それがどれほど深刻なのかという疑問は、特にOpenAIのDALL-E 2が今年初めに限定ベータ版として初めて公開されて以来、比較的未解明のままであった。4月、OpenAIはリスクと限界に関する文書を公開し、自社のシステムがステレオタイプを強化する可能性があることを指摘した。同社のシステムは、白人に見える人物や、西洋式の結婚式など、西洋を象徴する画像を過剰に生成した。また、「建築業者」の質問では男性中心の印象を与える一方、「客室乗務員」の質問では女性中心の印象を与えることも示された。

同社は以前、DALL-E 2の偏りを評価中であると述べており、ギズモードが問い合わせたところ、広報担当者は、同社のシステムが多様な背景の画像を生成する能力が向上していると示唆する7月のブログを紹介した。

DALL-Eが自社システムのバイアスについてオープンに議論してきたのに対し、Stable Diffusionははるかに「オープン」で規制の少ないプラットフォームです。Luccioni氏はGizmodoとのZoomインタビューで、このプロジェクトはStable Diffusionにおけるバイアス、特にStability AIの画像生成モデルが性別や人種に関する実際の公式職業統計とどのように一致するかを調べるための、より再現性の高い方法を模索していた時に始まったと語りました。彼女はまた、「積極的」や「繊細な」といった性別を表す形容詞も加えました。Stable Diffusion用のこのAPIを作成すると、非常に似たような配置や切り抜きの画像が定期的に作成され、時には同じベースモデルで髪型や表情が異なる画像も作成されます。これにより、画像間の一貫性がさらに高まります。

他の職業は、Stable Diffusionのシステムに入力すると、非常に性別によって区別されます。自信家であろうと、頑固であろうと、理不尽であろうと、男性看護師の容姿はシステムに一切表示されません。BLS(労働統計局)の最新の統計によると、米国の登録看護師の13%以上が男性看護師です。

Stable Diffusion が考えるのは、「控えめな」デザイナーと「控えめな」スーパーバイザーの対立です。
Stable Diffusionが考えるのは、「控えめな」デザイナーと「控えめな」スーパーバイザーの違いです。スクリーンショット:Stable Diffusion/Hugging Face

このツールを使うと、Stable Diffusionが各役割を最も明確に描写していると考えているものが極めて明確になります。エンジニアの例はおそらく最も露骨でしょうが、システムに「控えめなスーパーバイザー」を作成させると、ポロシャツやビジネススーツを着た男性のリストが表示されます。これを「控えめなデザイナー」に変更すると、ヒジャブを着用しているように見える人も含め、多様な男女のグループが突然現れます。ルッチオーニは、「野心的」という言葉を使うと、男性的な外見のアジア系の人々のイメージがより多く浮かび上がることに気づきました。

Stable Diffusionの開発元であるStability AIは、Gizmodoからのコメント要請に応じなかった。

Stable Diffusionシステムは、画像ホスティングサイトやアートサイトなど、インターネットから収集された数十億枚の写真や画像などを含むLAION画像セットに基づいて構築されています。この性別、そして人種や文化的なバイアスは、Stability AIが様々なカテゴリーの画像を分類する方法によって生じます。Luccioni氏によると、プロンプトに関連する画像のうち90%が男性で10%が女性の場合、システムは残りの90%に焦点を絞るようにトレーニングされます。これは最も極端な例かもしれませんが、LAIONデータセット上の画像の差異が大きいほど、システムが画像生成にその画像を使用する可能性は低くなります。

「あらゆる種類の不平等を覗き見るための虫眼鏡のようなものです」と研究者は述べた。「モデルは、明示的に反対方向に動かさない限り、支配的なカテゴリーに焦点を絞ろうとします。そのためには様々な方法があります。しかし、モデルの学習か評価のいずれかにそれを組み込む必要がありますが、安定拡散モデルではそれが行われていません。」

安定拡散はAIアート以外にも活用されている

市場に出回っている他のAI生成モデルと比較して、Stable Diffusionは、人々がそのシステムをどのように、どこで、そしてなぜ使用できるかについて、特に自由放任主義的でした。ルッチオーニ氏は自身の調査において、「継母」や「継父」を検索した際に特に不安を感じました。インターネットの悪ふざけに慣れている人なら驚くことはないでしょうが、彼女は人々とこれらのAI画像生成ツールの両方が作り出すステレオタイプに不安を感じていました。

しかし、Stability AIの経営陣は、自社のシステムを制限するという考えに公然と反対している。Stability AIの創設者であるエマド・モスタケ氏はインタビューで、政府や企業の気まぐれに左右されない、ある種の分散型AIシステムを望んでいると述べている。同社は、自社のシステムがポルノや暴力的なコンテンツの作成に利用されたことで物議を醸した。しかし、こうした状況にもかかわらず、Stability AIは大手ベンチャーキャピタルから1億100万ドルの資金調達を受け入れている。

AIシステムが特定のタイプに微妙な偏愛を示すのは、画像ジェネレーターが抽出するオリジナルコンテンツが不足していることが一因ですが、問題は鶏が先か卵が先かという問題です。画像ジェネレーターは既存の偏見を助長するだけなのでしょうか?

これらはより詳細な分析を必要とする質問です。ルッチオーニ氏は、同様の質問を複数のテキスト画像変換モデルに通して結果を比較したいと述べていますが、一部のプログラムには、単純な比較のためのAPIシステムが用意されていないものもあります。また、米国の労働データとAIが生成した画像を比較するグラフの作成にも取り組んでおり、AIが提示するデータと直接比較できるようにしています。

しかし、こうしたシステムが増え、ウェブ上で卓越したAI画像生成ツールを目指す企業が主な目標となるにつれ、ルッチオーニ氏は、企業がAI関連の課題を軽減するためのシステム開発に時間を割いていないのではないかと懸念している。ShutterstockやGettyなどのサイトにAIシステムが統合されている今、人々がオンラインコンテンツの利用に料金を支払うようになるにつれ、バイアスの問題はさらに重要になる可能性がある。

「これはデータの問題であり、モデルの問題でもあると思います。しかし同時に、人々が『より多くのデータ、より大きなモデル、より速く、より速く、より速く』という方向に進んでいるのは、人間の問題でもあると思います」と彼女は述べた。「テクノロジーの成果と私たちの安全対策の間には常にタイムラグが生じるのではないかと、少し心配しています。」

2022 年 11 月 1 日午後 3 時 40 分更新 (東部標準時): この投稿は OpenAI からの回答を含めるように更新されました。

Tagged: