3月に新型コロナウイルス感染症(COVID-19)が世界を混乱に陥れた際、オンライン小売大手のAmazonはパンデミックによって引き起こされた突然の変化への対応に苦慮しました。これまで在庫切れになることのなかったボトル入り飲料水やトイレットペーパーといった日用品が、突如として品薄状態になりました。1日または2日での配送が数日遅れる事態にまで発展しました。AmazonのCEO、ジェフ・ベゾスはパンデミック中に240億ドルもの利益を上げましたが、当初は、より優先度の高い商品の在庫と配送を優先するため、物流、輸送、サプライチェーン、購買、サードパーティ販売プロセスの調整に苦慮しました。
通常、Amazonの複雑な物流は主に人工知能アルゴリズムによって処理されています。数十億件の販売と配送実績に基づいて磨き上げられたこれらのシステムは、各商品の販売数量、フルフィルメントセンターの在庫補充時期、配送距離を最小限に抑えるためのまとめ買い配送方法などを正確に予測します。しかし、新型コロナウイルス感染症のパンデミック危機によって私たちの日常生活や生活パターンが変化したため、これらの予測はもはや有効ではありません。
「CPG(消費財)業界では、今回のパンデミックで消費者の購買パターンが大きく変化しました」と、AIコンサルティング会社Pactera Edgeのシニアバイスプレジデント兼エンタープライズAIソリューション&コグニティブエンジニアリング担当グローバルヘッド、ラジーヴ・シャルマ氏はギズモードに語った。「大量購入やサイズ・数量の異なる商品のパニック買いが見られる傾向があります。AIモデルは過去にこのような急激な増加を経験したことがないため、出力の精度が低くなる可能性があるのです。」
過去数十年にわたり、人工知能(AI)アルゴリズムは私たちの日常生活に多くの変化をもたらしてきました。受信トレイからスパムメールをブロックし、ソーシャルメディアから暴力的なコンテンツを遠ざけてきましたが、その効果はまちまちです。銀行における詐欺やマネーロンダリング対策にも活用されています。投資家の取引判断を支援し、そして恐ろしいことに、採用担当者の求人応募書類の審査にも役立っています。そして、AIはこれらすべてを1日に何百万回も、ほとんどの場合、高い効率で実行しています。しかし、新型コロナウイルス感染症(COVID-19)のパンデミックのような稀な事態が発生すると、AIの信頼性は低下しがちです。
新型コロナウイルス感染症の流行によって浮き彫りになった多くの事実の一つは、AIシステムの脆弱性です。自動化が私たちのあらゆる活動においてますます大きな割合を占めるようになると、広範囲にわたる混乱を引き起こすブラックスワン事象に対してAIシステムの堅牢性を維持するための新たなアプローチが必要になります。
AIアルゴリズムが失敗する理由
AIの商業的成功の鍵は、機械学習の進歩です。機械学習とは、膨大なデータセットからパターンを発見し、それを活用するアルゴリズムの一種です。機械学習とそのより一般的なサブセットであるディープラーニングは数十年前から存在していましたが、膨大なデータと計算量を必要とするため、これまでその利用は限られていました。しかし、過去10年間で、データの豊富さとプロセッサ技術の進歩により、企業はコンピュータービジョン、音声認識、自然言語処理といった新たな分野で機械学習アルゴリズムを活用できるようになりました。
膨大なデータセットで学習させた機械学習アルゴリズムは、人間のアナリストには気づかなかったようなデータポイント間の微妙な相関関係をしばしば発見します。こうしたパターンにより、機械学習アルゴリズムは、必ずしも論理的ではないとしても、ほとんどの場合、本来の目的に役立つ予測や予言を行うことができます。例えば、顧客行動を予測する機械学習アルゴリズムは、レストランで外食する頻度が高い人は特定の種類の食料品店で買い物をする可能性が高いことや、オンラインで頻繁に買い物をする顧客は特定のブランドを購入する可能性が高いことを発見するかもしれません。
「経済の様々な変数間の相関関係はすべて、機械学習モデルで活用するのに最適です。機械学習モデルは、それらを活用してより正確な予測を行うことができます。しかし、これらの相関関係は一時的なもので、状況に大きく依存することがあります」と、MIT-IBM Watson AIラボのIBMディレクター、デビッド・コックス氏はGizmodoに語った。「新型コロナウイルス感染症の流行時に世界中で起こったように、基盤となる状況が変わったらどうなるでしょうか? 顧客の行動は劇的に変化し、かつての相関関係の多くはもはや当てはまりません。外食の頻度は、もはやどこで食料品を買うかを予測できません。なぜなら、外食する人が劇的に減っているからです。」
消費者の習慣が変化すると、サプライチェーンの挙動を定義する無数の変数間の本質的な相関関係が崩れ、古い予測モデルの妥当性は失われます。これは、Amazonなどの企業が経験したように、倉庫の空室や大規模な配送遅延につながる可能性があります。「相関関係に基づいて予測を立てても、その相関関係を生み出す根本的な原因と結果を理解しなければ、予測は外れてしまうでしょう」とコックス氏は述べています。
同様の影響は銀行などの他の分野でも見られる。銀行では、顧客の支出習慣の突然の変化をアカウント侵害の兆候として検知しフラグを立てるよう機械学習アルゴリズムが調整されている。分析・機械学習サービスプロバイダーのテラデータによると、同社のプラットフォームを使用して高リスク取引のスコアリングを行っている企業の一つでは、消費者がオンラインでの支出を増やし、実店舗での支出を減らすようになったため、モバイル決済が15倍に増加したという(テラデータは方針として社名を公表していない)。不正検出アルゴリズムは顧客行動の異常を探すもので、このような突然の変化により、正当な取引を不正とフラグ付けする可能性がある。同社によると、銀行アルゴリズムの精度を維持し、ロックダウンによる突然の変化に適応させることができたという。
しかし、コンピュータービジョンシステムや画像内の物体や人物を検出するために使用されるアルゴリズムなど、他の分野では混乱はより根本的なものでした。
「COVID-19の影響で基盤データにいくつかの変化が見られ、個々のAIモデルだけでなく、エンドツーエンドのAIパイプラインのパフォーマンスにも影響が出ています」と、テラデータのグローバル新興プラクティス、人工知能、ディープラーニング担当バイスプレジデントであるアティフ・クレイシー氏は述べています。「COVID-19の影響で人々がマスクを着用するようになり、顔を覆うことでモデルに検出漏れが生じ、パフォーマンスが低下しています。」
テラデータのRetail Visionテクノロジーは、数千枚の画像で学習したディープラーニングモデルを用いて、店内カメラの映像ストリームから人物を検出し、その位置を特定します。強力かつ潜在的に不吉な能力を持つこのAIは、映像から人物の行動や感情といった情報も分析し、他のデータと組み合わせて小売業者に新たな洞察を提供します。このシステムの性能は、映像中の顔の位置特定能力と密接に関連していますが、ほとんどの人がマスクを着用しているため、AIの性能は劇的に低下しています。
「一般的に、機械学習とディープラーニングは、異なる環境条件や銀行顧客のパニックに駆られた購買行動など、変化に非常に敏感な、非常に正確だが浅いモデルを提供します」とクレイシー氏は述べた。

因果関係
私たち人間は、自然界で観察するデータから根底にある法則を抽出できます。原因と結果という観点から考え、世界の仕組みに関するメンタルモデルを適用することで、これまで経験したことのない状況を理解し、適応することができます。
「橋から車が水に落ちていくのを見たら、それがどうなるかを予測するために、以前に同じような事故を見たことは必要ありません」とコックス氏は述べた。「物がなぜ浮くのか、そして車が何でできていてどのように組み立てられているのか、ある程度は(少なくとも直感的に)分かっています。ですから、車はしばらくは浮くだろうが、最終的には水を吸い込んで沈むだろうと推論できるのです。」
一方、機械学習アルゴリズムは、既に見たものの間の空間を埋めることはできますが、環境を支配する根本的なルールや因果モデルを発見することはできません。新しいデータが古いデータと大きく変わらない限りは問題なく機能しますが、環境が劇的に変化すると、すぐに破綻し始めます。
「私たちの機械学習やディープラーニングのモデルは、これまで見てきたデータと似ているが完全に同じではないデータを扱う補間には優れている傾向がありますが、経験外の状況から予測を行う外挿は苦手なことが多いのです」とコックス氏は言う。
因果モデルの欠如は機械学習コミュニティの根深い問題であり、定期的にエラーを引き起こします。テスラの自動運転車がコンクリートの障壁に衝突したり、AmazonのAI採用ツール(現在は廃止)が履歴書に「女子チェスクラブのキャプテン」と記載した応募者にペナルティを与えたりするのも、まさにこのためです。
AIが文脈を理解できないことの痛ましい例が、2019年3月に起きた。ニュージーランドで51人が殺害された事件をテロリストがFacebookでライブ配信したのだ。暴力的なコンテンツをモデレートするFacebookのAIアルゴリズムは、この残忍な動画を検知できなかった。一人称視点で撮影されていたことに加え、類似コンテンツで学習していなかったためだ。この動画は手動で削除されたが、ユーザーがコピーを再投稿したため、Facebookはプラットフォームから削除するのに苦労した。
世界的パンデミックのような重大な出来事は、多くの自動化システムの弱点を誘発し、同時にあらゆる種類の障害を引き起こすため、はるかに有害な影響を及ぼす可能性があります。
ブラックスワンイベントへの対処法
「消費者行動データでトレーニングされたAI/MLモデルは、パンデミックのようなブラックスワンイベントの発生下では、予測精度とレコメンデーションの有効性において必ずと言っていいほど影響を受けることを理解することが不可欠です」と、Pacteraのシャルマ氏は述べています。「これは、AI/MLモデルが、トレーニングに用いられる特徴量のこのような変化をこれまで経験したことがない可能性があるためです。すべてのAIプラットフォームエンジニアは、このことを十分に認識しています。」
これはAIモデルが間違っている、あるいは誤りであるという意味ではないとシャルマ氏は指摘し、AIモデルは新しいデータやシナリオを用いて継続的に学習する必要があることを示唆している。また、企業や組織に導入されているAIシステムの限界を理解し、対処する必要もある。
シャルマ氏は、例えば、信用申込書を「信用度良好」または「信用度不良」に分類し、その評価を別の自動システムに渡して申込を承認または却下するAIについて説明した。「(今回のパンデミックのような)何らかの状況により、信用度が低い申込者の数が急増した場合、モデルは高い精度で評価する能力に課題を抱える可能性があります」とシャルマ氏は述べた。
世界中の企業が顧客の運命を決定するために自動化されたAI搭載ソリューションを導入する傾向が強まっているが、たとえ設計通りに機能したとしても、これらのシステムは融資を希望する人々に壊滅的な影響を及ぼす可能性がある。しかしながら、今回のケースでは、自動化システムを新しい規則に対応できるよう明確に調整するか、あるいは最終決定を人間の専門家に委ねることで、組織が高リスクの顧客を抱え込むのを防ぐ必要があるだろう。
「モデルの精度や推奨事項がもはや当てはまらなくなったパンデミックの現状では、下流の自動化プロセスに、デューデリジェンスを強化するために人間を介入させるなどのスピードブレーカーを通す必要があるかもしれない」と彼は述べた。
IBMのコックス氏は、私たち自身の世界に対する理解をAIシステムに統合できれば、新型コロナウイルス感染症の流行のようなブラックスワンイベントに対処できるようになると信じている。
「急速に変化する世界に適応し、より柔軟な方法で問題を解決できるよう、世界の因果構造を実際にモデル化したシステムを構築する必要がある」と彼は述べた。
コックス氏が所属するMIT-IBM Watson AIラボは、ディープラーニングと従来のシンボリックAI技術を融合させた「ニューロシンボリック」システムの開発に取り組んでいます。シンボリックAIでは、人間のプログラマーがデータで学習させるのではなく、システムの動作のルールと詳細を明示的に指定します。シンボリックAIはディープラーニングの台頭以前から主流であり、ルールが明確に定義されている環境に適しています。一方で、画像やテキスト文書などの非構造化データを処理する能力はディープラーニングシステムには備わっていません。
シンボリックAIと機械学習の組み合わせは、「世界から学ぶだけでなく、論理と推論を使って問題を解決できるシステム」の作成に役立っているとコックス氏は述べた。
IBMのニューロシンボリックAIはまだ研究と実験の段階にあり、同社は銀行業務を含む複数の分野でテストを行っています。
テラデータのクレイシー氏は、AIコミュニティを悩ませているもう一つの問題、ラベル付きデータについて指摘しました。ほとんどの機械学習システムは教師あり学習であり、つまり、機能を実行する前に、人間が注釈を付けた膨大なデータで学習させる必要があります。状況が変化すると、機械学習モデルは新たな状況に適応するために、新たなラベル付きデータを必要とします。
クレイシー氏は、「能動学習」の活用が、ある程度はこの問題の解決に役立つ可能性があると示唆した。能動学習モデルでは、人間のオペレーターが機械学習アルゴリズムのパフォーマンスを常に監視し、パフォーマンスが低下し始めた領域で新しいラベル付きデータを提供する。「こうした能動学習活動には、人間が関与する仕組みと、品質制約に基づいて再ラベル付けが必要なデータを選択するための人間による介入を促すアラームの両方が必要だ」とクレイシー氏は述べた。
しかし、自動化システムが拡大し続けるにつれ、ラベル付きデータへの需要の高まりに人間の努力では対応できなくなっています。大量のデータを必要とするディープラーニングシステムの台頭により、数十億ドル規模のデータラベル付け産業が誕生しました。これらの産業は、貧困国の低賃金労働者を雇用するデジタルスウェットショップによって支えられている場合が多く、機械学習モデルを最新の状態に保つために十分なアノテーション付きデータを作成することに依然として苦労しています。人間の助けをほとんど、あるいは全く必要とせずに新しいデータから学習できるディープラーニングシステムが必要になるでしょう。
「企業では教師あり学習モデルが一般的になりつつあるため、変化する行動への適応をより迅速に行うために、データ効率を高める必要があります」とクレイシー氏は述べています。「ラベル付きデータの提供を人間に頼り続けると、AIが新しい状況に適応できるかどうかは、人間がどれだけ速くラベルを提供できるかによって常に制限されてしまいます。」
手動でラベル付けされたデータをほとんど、あるいは全く必要としないディープラーニングモデルは、AI研究において活発な分野です。昨年のAAAIカンファレンスでは、ディープラーニングのパイオニアであるヤン・ルカン氏が「自己教師学習」の進歩について講演しました。これは、子供のように、細部まで指示されることなく、自ら世界を探索できるディープラーニングアルゴリズムの一種です。
「自己教師学習こそが未来だと考えています。これによりAIシステムは次のレベルへと進化し、観察によって世界に関する十分な背景知識を学習し、ある種の常識が生まれるかもしれません」とルカン氏は会議での講演で述べた。
しかし、AI業界ではよくあることですが、こうした取り組みが商業的に実現可能な製品になるまでには、何年も、場合によっては数十年もかかります。その間、私たちは現在のAIの力と限界を認識し、受け入れる必要があります。
「これらは静的なITシステムではありません」とシャルマ氏は言います。「エンタープライズAIソリューションに終わりはありません。継続的な再トレーニングが必要です。インフラ内に常駐する、生きたエンジンなのです。AIプラットフォームを構築したら、それで終わりと考えるのは間違いです。」
Ben Dickson はソフトウェア エンジニア、技術アナリスト、そして TechTalks の創設者です。