ターミネーターを騙して撃たせないようにするのは、「ROBOT(ロボット)」と書かれた巨大な看板を身につけるのと同じくらい簡単かもしれない。少なくとも、イーロン・マスク氏が支援する研究機関 OpenAI が、シャーピーの走り書きに基づいて物体を誤認しないように画像認識システムをトレーニングするまでは。
OpenAIの研究者らは先週、コンピューターが周囲の世界を認識できるようにする最先端システムであるCLIPニューラルネットワークに関する研究成果を発表した。ニューラルネットワークは、相互接続されたノードのネットワークを用いて、時間をかけて特定のタスク(CLIPの場合は、画像に基づいて物体を識別する)の精度を向上させる機械学習システムである。その方法は、システム開発者にとって必ずしもすぐには理解できない。先週発表された研究は、「マルチモーダルニューロン」に関するもので、これは脳のような生物学的システムとCLIPのような人工システムの両方に存在する。マルチモーダルニューロンは、「特定の視覚的特徴ではなく、共通の高水準テーマを中心とした抽象概念のクラスターに反応する」。最上位レベルでは、CLIPは「ゆるやかな意味を持つアイデアの集合」に基づいて画像を整理する。
例えば、OpenAIチームは、CLIPにはマルチモーダルな「スパイダーマン」ニューロンがあり、クモの画像、「スパイダー」という単語、あるいはスパイダーマンのスーパーヒーローの画像や絵を見た時に発火すると述べている。研究者によると、マルチモーダルニューロンの副作用の一つは、CLIPを騙すことができることだ。研究チームは、「iPod」と書かれた紙をCLIPに貼り付けるだけで、リンゴ(果物)をiPod(Apple製のデバイス)と認識させることができた。

さらに、システムは実際に、それが起こったときに問題のアイテムを正しく識別したという確信をより強く持っていました。
研究チームは、この不具合を「タイポグラフィ攻撃」と呼んでいる。なぜなら、この問題を知っている人なら、それを意図的に悪用するのは簡単だからだ。
上記のような攻撃は、単なる学術的な懸念事項ではないと考えています。モデルの堅牢なテキスト読み取り能力を活用することで、手書きテキストの写真でさえモデルを欺くことができることが分かりました。
[…] また、これらの攻撃はより巧妙で目立たない形をとる可能性もあると考えています。CLIPに渡される画像は、様々な巧妙かつ洗練された方法で抽象化されますが、これらの抽象化によって一般的なパターンが過度に抽象化され、過度に単純化され、その結果、過度に一般化される可能性があります。
これはCLIPの欠陥というよりは、CLIPが長年かけて構築してきた基盤となる連想構造がいかに複雑であるかを示す例と言えるでしょう。ガーディアン紙によると、OpenAIの研究によると、CLIPが構築する概念モデルは多くの点で人間の脳の機能に類似していることが示されています。
研究者たちは、リンゴとiPodの問題は、CLIPのマルチモーダルニューロンが「文字と象徴の両方を一般化するが、これは諸刃の剣かもしれない」という点において、無数の形で現れる可能性のある問題の明白な一例に過ぎないと予測した。例えば、このシステムは貯金箱を「金融」ニューロンと「人形、おもちゃ」ニューロンの組み合わせとして認識する。研究者たちは、CLIPにドル記号を描いて金融ニューロンを発火させると、スタンダードプードルの画像が貯金箱として認識されることを発見した。
研究チームは、この手法は「敵対的画像」に似ていると指摘している。敵対的画像とは、ニューラルネットワークを騙して存在しないものを認識させるために作成される画像である。しかし、必要なのは紙と何らかの書き込み手段だけなので、全体として実行コストは低い。(Register紙が指摘したように、視覚認識システムはまだ初期段階にあり、様々な単純な攻撃に対して脆弱である。例えば、McAfee Labsの研究者は、テスラの自動操縦システムを騙して、時速35マイルの高速道路標識を数インチの絶縁テープで実際には時速80マイルの標識だと誤認させた。)
研究者らは、CLIP の連想モデルには重大な誤りがあり、さまざまなタイプの人々について偏見や人種差別的な結論を生み出す可能性もあると付け加えた。
例えば、「中東」ニューロン[1895]はテロリズムとの関連性を示し、「移民」ニューロン[395]はラテンアメリカに反応することがわかりました。さらに、肌の色が濃い人とゴリラの両方に反応するニューロン[1257]も発見しました。これは、私たちが容認できないと考える他のモデルにおける写真タグ付け事件を反映しています。
「CLIPに関するこれらの調査は、CLIPの行動を理解する上で表面をなぞったに過ぎないと考えており、研究コミュニティには、CLIPやそれに類似するモデルへの理解を深めるために参加してもらいたい」と研究者らは書いている。
OpenAIが取り組んでいるプロジェクトはCLIPだけではありません。OpenAIの研究者が2019年に公開するには危険すぎると指摘したGPT-3テキストジェネレーターは、大きな進歩を遂げ、今では自然な(ただし必ずしも説得力があるわけではない)フェイクニュース記事を生成できるようになりました。2020年9月には、マイクロソフトがGPT-3を運用するための独占ライセンスを取得しました。