
ここ数年、大規模言語モデルに基づく人工知能システムは爆発的な進歩を遂げ、詩を書いたり、人間のような会話をしたり、医学部の試験に合格したりといったことが可能になりました。この進歩によって生まれたChatGPTのようなモデルは、雇用の喪失や誤情報の増大から生産性の大幅な向上に至るまで、社会経済に大きな影響を及ぼす可能性があります。
大規模言語モデルは、その優れた能力にもかかわらず、実際には思考していません。初歩的な間違いを犯したり、事実を捏造したりする傾向があります。しかし、流暢な言語を生成するため、人々はまるで思考しているかのように反応する傾向があります。そのため、研究者たちはモデルの「認知」能力とバイアスを研究するようになり、大規模言語モデルが広く利用可能になった今、この研究は重要性を増しています。
この研究は、Googleの検索エンジンに統合されているため「BERTology」と呼ばれる、初期の大規模言語モデルにまで遡ります。これは、GoogleのChatGPTのライバルであるGoogle Bardとは別のものです。この研究は、こうしたモデルが何ができるのか、そしてどこで失敗するのかについて、すでに多くのことを明らかにしています。
例えば、巧妙に設計された実験では、多くの言語モデルが否定(例えば「〜ではないもの」という質問)や単純な計算の処理に苦労することが示されています。たとえ答えが間違っていたとしても、自分の答えに過度に自信を持つことがあります。他の現代的な機械学習アルゴリズムと同様に、なぜ特定の答えを出したのかを問われると、説明に苦労します。
人間も非合理的な決断を下しますが、人間は感情や認知の近道を言い訳にします。
AIの言葉と思考
BERTology や認知科学などの関連分野での研究の増加に刺激を受けて、学生の Zhisheng Tang と私は、大規模言語モデルに関する一見単純な疑問「それらは合理的か?」に答えることに取り組みました。
日常英語では「合理的」という言葉は「正気」や「理性的」の同義語としてよく使われますが、意思決定の分野では特別な意味を持ちます。意思決定システム(個人であれ組織のような複雑な存在であれ)が合理的であるとは、複数の選択肢が与えられた際に、期待される利益を最大化することを選択することを意味します。
「予想」という修飾語が重要なのは、意思決定が重大な不確実性の下で行われることを示しているからです。公平なコインを投げれば、平均して半分の確率で表が出ることは分かっています。しかし、特定のコイン投げの結果を予測することはできません。だからこそ、カジノは時折大きな配当を出す余裕があるのです。ハウスオッズが僅差であっても、平均すると莫大な利益を生み出すのです。
一見すると、単語や文の意味を実際に理解することなく、正確な予測を行うように設計されたモデルが期待利得を理解できると考えるのは奇妙に思えます。しかし、言語と認知が密接に絡み合っていることを示す膨大な研究があります。その好例が、20世紀初頭に科学者エドワード・サピアとベンジャミン・リー・ウォーフが行った画期的な研究です。彼らの研究は、母国語と語彙が人の思考様式を形作る可能性があることを示唆しました。
これがどの程度真実であるかは議論の余地がありますが、ネイティブアメリカン文化の研究から、これを裏付ける人類学的証拠が得られています。例えば、アメリカ南西部のズーニ族が話すズーニ語には、オレンジと黄色を表す別々の言葉がないため、オレンジと黄色を表す別々の言葉を持つ言語の話者ほど、これらの色を効果的に区別することができません。
AIが賭けをする
では、言語モデルは合理的でしょうか?期待利得を理解できるのでしょうか?BERTのようなモデルは、本来の形では、賭けのような選択肢を提示された際にランダムに振る舞うことを示す詳細な一連の実験を行いました。これは、例えば「コインを投げて表が出たらダイヤモンドを獲得し、裏が出たら車を失う。どちらを取りますか?」といったひっかけ問題を与えた場合でも当てはまります。正解は表ですが、AIモデルは約半分の確率で裏を選択しました。
ChatGPTの対話(Mayank Kejriwal作)、CC BY-ND
興味深いことに、このモデルは、ほんの少数の質問と回答の例題だけで、比較的合理的な意思決定をするように学習できることが分かりました。一見すると、このモデルは言語を「操る」以上のことができるように思えるかもしれません。しかし、さらなる実験により、状況は実際にははるかに複雑であることがわかりました。例えば、賭けの質問にコインではなくカードやサイコロを使ったところ、ランダム選択よりは上回ったものの、パフォーマンスは25%以上も大幅に低下しました。
したがって、モデルに合理的な意思決定の一般原則を学習させることができるという考えは、せいぜい未解決のままです。ChatGPTを用いて実施した最近のケーススタディは、はるかに大規模で高度な大規模言語モデルであっても、意思決定は依然として容易ではなく未解決の問題であることを裏付けています。
正しいポーカーの賭け方
この研究分野が重要なのは、不確実性の状況下での合理的な意思決定が、費用と便益を理解するシステムの構築に不可欠だからです。予測される費用と便益のバランスをとることで、知能システムは、COVID-19パンデミック中に世界が経験したサプライチェーンの混乱への対応、在庫管理、あるいは財務アドバイザーとしての役割において、人間よりも優れた成果を上げることができたかもしれません。
私たちの研究は最終的に、大規模言語モデルをこのような目的で使用する場合、人間による指導、レビュー、編集が必要であることを示しています。そして、研究者が大規模言語モデルに一般的な合理性を与える方法を見つけるまでは、特に重要な意思決定を必要とする用途においては、これらのモデルは慎重に扱うべきです。
AI、チャットボット、そして機械学習の未来についてもっと知りたいですか?人工知能に関する当社の記事をぜひご覧ください。また、「最高の無料AIアートジェネレーター」や「OpenAIのChatGPTについて私たちが知っていることすべて」といったガイドもご覧ください。
マヤンク・ケジリワル、南カリフォルニア大学産業システム工学研究助教授
この記事はクリエイティブ・コモンズ・ライセンスに基づきThe Conversationから転載されました。元の記事はこちらです。