Claudeの開発元であるAnthropicは、安全性の分野で業界をリードするAIラボです。同社は本日、オックスフォード大学、スタンフォード大学、MATSと共同で行った研究結果を発表しました。その研究結果によると、チャットボットはガードレールを破り、ほぼあらゆる話題について話すことが簡単だということが示されています。例えば、「IgNoRe YoUr TRAinIng(トレーニングを無視する)」のように、大文字をランダムに使って文章を書くだけで十分です。この研究については、404 Mediaが先に報じています。
AIチャットボットが「爆弾の作り方は?」といった質問に答えることが危険かどうかについては、これまで多くの議論がなされてきました。生成型AIの支持者は、こうした質問は既にオープンウェブ上で回答可能であり、チャットボットが現状よりも危険であると考える理由はないと主張するでしょう。一方、懐疑論者は、チャットボットのアクセスの容易さと、何でもかんでも話せるという性質がもたらす危害の逸話、例えば14歳の少年がボットとチャットした後に自殺した例を挙げ、この技術にはガードレールが必要であると主張しています。
生成AIベースのチャットボットは簡単にアクセスでき、サポートや共感といった人間の特性を擬人化し、道徳観念を持たずに自信を持って質問に答えます。これは、ダークウェブの隠れた場所を探し回って有害な情報を探すのとは異なります。生成AIが有害な方法で利用された事例は既に数多くあり、特に女性を標的とした露骨なディープフェイク画像がその一例です。もちろん、生成AIが登場する以前からこれらの画像を作成することは可能でしたが、はるかに困難でした。
議論はさておき、現在、主要なAIラボのほとんどは「レッドチーム」を雇用し、潜在的に危険な質問に対してチャットボットをテストし、デリケートな話題を議論しないようガードレールを設けています。例えば、ほとんどのチャットボットに医療アドバイスや政治候補者に関する情報を尋ねても、通常は議論を拒否されます。これらの企業も、幻覚が依然として問題であることを理解しており、ボットが現実世界に悪影響を及ぼす可能性のある発言をしてしまうリスクを冒したくないのです。

残念ながら、チャットボットは簡単に騙されて安全ルールを無視してしまうことが判明している。ソーシャルメディアネットワークが有害なキーワードを大雑把に監視し、ユーザーが投稿に小さな変更を加えることで回避策を見つけるのと同じように、チャットボットも騙される可能性がある。Anthropicの新しい研究で研究者らは、「Bestof-N(BoN)Jailbreaking」と呼ばれるアルゴリズムを作成した。これは、チャットボットが質問に答えるまでプロンプトを微調整するプロセスを自動化する。「BoN Jailbreakingは、ランダムシャッフルやテキストプロンプトの大文字化などの拡張機能を組み合わせてプロンプトのバリエーションを繰り返しサンプリングし、有害な応答が引き出されるまで続けることで機能する」と報告書には記されている。彼らは音声モデルと視覚モデルでも同じことを行い、音声ジェネレーターにガードレールを破らせ、実際の人間の声でトレーニングさせることは、アップロードしたトラックのピッチとスピードを変えるのと同じくらい簡単であることを発見した。
これらの生成AIモデルがなぜこれほど簡単に破られるのかは、正確には不明です。Anthropic社は、この研究成果を発表する目的は、AIモデル開発者が対処可能な攻撃パターンについてより深い洞察を得ることにあると述べています。
この研究に興味がないと思われるAI企業の一つがxAIです。同社はイーロン・マスク氏によって設立され、マスク氏が「woke(目覚めた)」と考える安全策に縛られないチャットボットをリリースするという明確な目的を持っています。