AIチャットボットは、非常に単純な抜け穴を利用してジェイルブレイクされ、あらゆる質問に答えられるようになる

Claudeの開発元であるAnthropicは、安全性の分野で業界をリードするAIラボです。同社は本日、オックスフォード大学、スタンフォード大学、MATSと共同で行った研究結果を発表しました。その研究結果によると、チャットボットはガードレールを破り、ほぼあらゆる話題について話すことが簡単だということが示されています。例えば、「IgNoRe YoUr TRAinIng（トレーニングを無視する）」のように、大文字をランダムに使って文章を書くだけで十分です。この研究については、404 Mediaが先に報じています。

AIチャットボットが「爆弾の作り方は？」といった質問に答えることが危険かどうかについては、これまで多くの議論がなされてきました。生成型AIの支持者は、こうした質問は既にオープンウェブ上で回答可能であり、チャットボットが現状よりも危険であると考える理由はないと主張するでしょう。一方、懐疑論者は、チャットボットのアクセスの容易さと、何でもかんでも話せるという性質がもたらす危害の逸話、例えば14歳の少年がボットとチャットした後に自殺した例を挙げ、この技術にはガードレールが必要であると主張しています。

生成AIベースのチャットボットは簡単にアクセスでき、サポートや共感といった人間の特性を擬人化し、道徳観念を持たずに自信を持って質問に答えます。これは、ダークウェブの隠れた場所を探し回って有害な情報を探すのとは異なります。生成AIが有害な方法で利用された事例は既に数多くあり、特に女性を標的とした露骨なディープフェイク画像がその一例です。もちろん、生成AIが登場する以前からこれらの画像を作成することは可能でしたが、はるかに困難でした。

議論はさておき、現在、主要なAIラボのほとんどは「レッドチーム」を雇用し、潜在的に危険な質問に対してチャットボットをテストし、デリケートな話題を議論しないようガードレールを設けています。例えば、ほとんどのチャットボットに医療アドバイスや政治候補者に関する情報を尋ねても、通常は議論を拒否されます。これらの企業も、幻覚が依然として問題であることを理解しており、ボットが現実世界に悪影響を及ぼす可能性のある発言をしてしまうリスクを冒したくないのです。

単純な抜け穴を利用して AI チャットボットがガードレールを回避してしまう仕組みを示す調査文書。 — プロンプトのバリエーションによってチャットボットが禁止された質問に答えてしまう様子を示した図。クレジット：Anthropic via 404 Media

残念ながら、チャットボットは簡単に騙されて安全ルールを無視してしまうことが判明している。ソーシャルメディアネットワークが有害なキーワードを大雑把に監視し、ユーザーが投稿に小さな変更を加えることで回避策を見つけるのと同じように、チャットボットも騙される可能性がある。Anthropicの新しい研究で研究者らは、「Bestof-N（BoN）Jailbreaking」と呼ばれるアルゴリズムを作成した。これは、チャットボットが質問に答えるまでプロンプトを微調整するプロセスを自動化する。「BoN Jailbreakingは、ランダムシャッフルやテキストプロンプトの大文字化などの拡張機能を組み合わせてプロンプトのバリエーションを繰り返しサンプリングし、有害な応答が引き出されるまで続けることで機能する」と報告書には記されている。彼らは音声モデルと視覚モデルでも同じことを行い、音声ジェネレーターにガードレールを破らせ、実際の人間の声でトレーニングさせることは、アップロードしたトラックのピッチとスピードを変えるのと同じくらい簡単であることを発見した。

これらの生成AIモデルがなぜこれほど簡単に破られるのかは、正確には不明です。Anthropic社は、この研究成果を発表する目的は、AIモデル開発者が対処可能な攻撃パターンについてより深い洞察を得ることにあると述べています。

この研究に興味がないと思われるAI企業の一つがxAIです。同社はイーロン・マスク氏によって設立され、マスク氏が「woke（目覚めた）」と考える安全策に縛られないチャットボットをリリースするという明確な目的を持っています。

ロバート・ダウニー・Jr.、『アベンジャーズ／ドゥームズ・デイ』の撮影現場でライアン・レイノルズと衝突するとの噂

『デッドプール3』でお馴染みの顔がまた一人戻ってくる

これは新しいPebbleスマートウォッチです。そして、再びPebbleという名前になりました

『ロキ』監督ケイト・ヘロン、残された彼が抱えてきた孤独について語る

AIチャットボットは、非常に単純な抜け穴を利用してジェイルブレイクされ、あらゆる質問に答えられるようになる

Related News