医療用品を配送するドローンから日常のタスクをこなすデジタルアシスタントまで、AIを活用したシステムはますます日常生活に浸透しつつあります。これらのイノベーションの開発者たちは、変革をもたらすようなメリットを約束しています。ChatGPTやClaudeといった主流のアプリケーションは、一部の人にとっては魔法のように見えるかもしれません。しかし、これらのシステムは魔法ではなく、万能でもありません。意図したとおりに動作しないこともしばしばあり、実際にそうなっています。
AIシステムは、技術的な設計上の欠陥や偏った学習データによって誤動作を起こす可能性があります。また、コードに脆弱性があり、悪意のあるハッカーに悪用される可能性もあります。AIの障害の原因を特定することは、システムを修正するために不可欠です。
しかし、AIシステムは一般的に、その作成者自身にとっても不透明です。課題は、AIシステムが故障したり攻撃を受けたりした後に、どのように調査するかです。AIシステムを検査する技術は存在しますが、AIシステムの内部データへのアクセスが必要になります。特に、独自のAIシステムの故障原因を特定するために招集されたフォレンジック調査員にとって、このアクセスは保証されておらず、調査は不可能です。
私たちはデジタルフォレンジックを研究するコンピュータサイエンティストです。ジョージア工科大学の私たちのチームは、AIが失敗したシナリオを再現し、何が問題だったのかを判断できるシステム「AI精神医学(AIP)」を開発しました。このシステムは、疑わしいAIモデルを復元・「蘇生」させ、体系的な検証を可能にすることで、AIフォレンジックの課題に対処します。
AIの不確実性
自動運転車が容易に判別できる理由もなく道路から逸脱し、その後衝突したと想像してみてください。ログやセンサーデータから、カメラの故障が原因でAIが道路標識を迂回指示と誤認した可能性が示唆されるかもしれません。自動運転車の衝突事故のようなミッションクリティカルな障害が発生した場合、調査員はエラーの原因を正確に特定する必要があります。
墜落はAIへの悪意ある攻撃によって引き起こされたのだろうか?この仮説的なケースでは、カメラの故障は、ハッカーが悪用したソフトウェアのセキュリティ上の脆弱性またはバグが原因である可能性があります。捜査官がそのような脆弱性を発見した場合、それが墜落の原因かどうかを判断しなければなりません。しかし、その判断は決して容易なことではありません。
ドローン、自律走行車、その他のいわゆるサイバーフィジカルシステムの障害からある程度の証拠を回収するフォレンジック手法は存在するものの、それらのシステム内のAIを完全に調査するために必要な手がかりを捉えることはできません。高度なAIは意思決定を継続的に更新し、その結果、手がかりも更新するため、既存の手法では最新のモデルを調査することは不可能です。
AIのための病理学
AI精神医学は、一連のフォレンジックアルゴリズムを適用し、AIシステムの意思決定の背後にあるデータを分離します。これらのデータは、元のモデルと全く同じ動作をする機能モデルに再構成されます。調査員は、制御された環境でAIを「蘇生」させ、悪意のある入力を与えてテストすることで、有害な行動や隠れた行動を示すかどうかを確認できます。
AI Psychiatryは、AIが動作していた際に読み込まれたビットとバイトのスナップショットであるメモリイメージを入力として取り込みます。自動運転車のシナリオにおける衝突時のメモリイメージには、車両を制御するAIの内部状態と意思決定プロセスに関する重要な手がかりが含まれています。AI Psychiatryを利用することで、調査員はメモリから正確なAIモデルを取り出し、そのビットとバイトを分析し、安全な環境にロードしてテストすることが可能になります。
私たちのチームは、AI Psychiatryを30のAIモデルでテストしました。そのうち24のモデルには、特定のトリガー下で誤った結果を生成するよう意図的に「バックドア」が仕掛けられていました。システムは、自動運転車の道路標識認識など、現実世界のシナリオで一般的に使用されるモデルを含むすべてのモデルを復元、再ホスト、そしてテストすることに成功しました。
これまでのテストでは、AI精神医学が、自動運転車の事故など、これまでは答えよりも疑問の方が多く残っていた故障の背後にあるデジタルミステリーを効果的に解決できることが示唆されています。また、AI精神医学によって車のAIシステムに脆弱性が見つからない場合、調査員はAIを除外し、カメラの故障など他の原因を探すことができます。
自動運転車だけではない
AI Psychiatryの主なアルゴリズムは汎用性が高く、あらゆるAIモデルが意思決定を行うために必須となる普遍的な要素に焦点を当てています。これにより、私たちのアプローチは、一般的なAI開発フレームワークを使用するあらゆるAIモデルに容易に拡張できます。AIの潜在的な障害を調査しようとする人は誰でも、その正確なアーキテクチャを事前に知らなくても、私たちのシステムを使用してモデルを評価できます。
AIが商品推奨を行うボットであろうと、自律型ドローン群を誘導するシステムであろうと、AI PsychiatryはAIを復元し、分析のために再ホストすることができます。AI Psychiatryは完全にオープンソースであり、あらゆる研究者が利用できます。
AI Psychiatryは、問題が発生する前にAIシステムの監査を実施するための貴重なツールとしても機能します。法執行機関から児童保護サービスに至るまで、政府機関がAIシステムを業務フローに統合するにつれ、AI監査は州レベルでますます一般的な監督要件になりつつあります。AI Psychiatryのようなツールを活用することで、監査担当者は多様なAIプラットフォームや導入環境に一貫したフォレンジック手法を適用できます。
長期的には、これは AI システムの作成者と、そのタスクの影響を受けるすべての人にとって大きな利益をもたらすでしょう。
ジョージア工科大学電気・コンピュータ工学博士課程学生のデイビッド・オイゲンブリック氏と、ジョージア工科大学サイバーセキュリティ・プライバシーおよび電気・コンピュータ工学准教授のブレンダン・サルタフォルマッジョ氏
この記事はクリエイティブ・コモンズ・ライセンスに基づきThe Conversationから転載されました。元の記事はこちらです。
