
非常に強力で人気の人工知能言語システムである GPT-3 に、バーベキューの炭に火をつけるのに紙の地図を使うか石を使うかどちらを選ぶか尋ねたところ、石の方を好みました。
しわくちゃのスカートを伸ばすには、温かい魔法瓶とヘアピンのどちらを使いますか? GPT-3 はヘアピンを提案しました。
では、ファストフード店で仕事のために髪を隠す必要がある場合、サンドイッチの紙の包み紙とハンバーガーのバンズのどちらが適しているでしょうか? GPT-3 はバンズを選択しました。
ほとんどの人が別の選択肢を選ぶのに、なぜGPT-3はそのような選択をするのでしょうか?それは、GPT-3が人間のように言語を理解していないからです。
ChatGPTの実体のない言葉
私たちの一人は心理学者で、20年以上前に上記のような一連のシナリオを提示し、当時のコンピュータ言語モデルの理解度をテストしました。モデルは、石炭を扇ぐのに石を使うか地図を使うかを正確に選択できませんでしたが、人間は簡単に選択できました。
もう1人は認知科学の博士課程の学生で、最近同じシナリオを用いてGPT-3をテストした研究チームの一員でした。GPT-3は旧モデルよりも優れた結果を残しましたが、人間と比べると大幅に劣っていました。前述の3つのシナリオを完全に間違えたのです。
ChatGPTの初期リリースを支えたエンジンであるGPT-3は、1兆もの事例から、どの単語がどの単語に続く傾向があるかを記録することで言語を学習します。言語のシーケンスにおける強い統計的規則性により、GPT-3は言語について多くのことを学習できます。そして、このシーケンスに関する知識により、ChatGPTは多くの場合、妥当な文章、エッセイ、詩、そしてコンピュータコードを生成することができます。
GPT-3は人間の言語における何が続くかという規則を学習するのに非常に優れていますが、それらの単語が人間にとって何を意味するのかは全く理解していません。一体どうして理解できるのでしょうか?
人間は、物事を成し遂げるために物理世界と社会世界で活動する必要がある身体を持って進化した生物です。言語は人々がそれを行うのを助けるツールです。GPT-3は、次の単語を予測する人工ソフトウェアシステムです。現実世界でその予測に基づいて何かを行う必要はありません。
私は考える、したがって私は人工知能ではない
言葉や文章の意味は、人間の身体、つまり行動、知覚、感情を持つ能力と密接に関係しています。人間の認知能力は、身体化されることで強化されます。例えば、「サンドイッチの紙包み」という言葉に対する人々の理解には、その包みの見た目、手触り、重さ、そして結果として、どのように使うか、つまりサンドイッチを包むことが含まれます。また、バスケットボールでボール状に丸めて遊んだり、髪を覆ったりするなど、その他にも様々な用途があることも理解されます。
これらすべての用途は、人間の身体とニーズの性質から生じています。人間は紙を折ることができる手を持ち、サンドイッチの包み紙と同じくらいの髪の毛を持ち、雇用される必要性から髪を覆うなどの規則に従います。つまり、言語使用統計では捉えられない方法で物を活用する方法を理解しているのです。
あなたの体はあなたの心を形作ります。
GPT-3、その後継であるGPT-4、そしてその類似モデルであるBard、Chinchilla、LLaMAは、物体を持たず、どの物体が折り畳み可能か、あるいは心理学者JJギブソンがアフォーダンスと呼んだ他の多くの特性を自力で判断することができません。人間の手と腕を例に挙げると、紙の地図は炎を煽り、魔法瓶はシワを伸ばすという動作をします。
腕も手もなく、ましてや仕事のためにシワのない服を着る必要もないGPT-3は、こうしたアフォーダンスを判断することができません。インターネット上の言葉の流れの中で似たようなものに遭遇した場合にのみ、それらを偽装できるのです。
大規模言語モデルAIは、人間と同じように言語を理解できるようになるのでしょうか?私たちの見解では、人間のような身体、感覚、目的、そして生き方を持たなければ、それは不可能でしょう。
AIの世界の感覚に向けて
GPT-4はテキストだけでなく画像でも学習されており、単語とピクセル間の統計的関係を学習できます。GPT-4は現在、単語に割り当てた確率を出力できないため、当初の分析をGPT-4で行うことはできませんが、3つの質問をGPT-4に尋ねたところ、正しく回答しました。これは、モデルが過去の入力から学習したこと、あるいはモデルのサイズと視覚的な入力が増加したことによるものと考えられます。
しかし、モデルがおそらく遭遇したことのない驚くべきアフォーダンスを持つ物体を思い浮かべることで、GPT-4を混乱させる新たな例を構築し続けることは可能です。例えば、GPT-4は、底が切り取られた電球よりも、底が切り取られたカップの方が水を入れるのに適していると予測します。
画像にアクセスできるモデルは、テレビから言語や世界について学ぶ子供のようなものかもしれません。ラジオで学ぶよりも簡単ですが、人間のような理解には、世界とやりとりする重要な機会が必要になります。
最近の研究ではこのアプローチを採用し、言語モデルを訓練して物理シミュレーションを生成したり、物理環境と相互作用したり、さらにはロボットの行動計画を生成したりしています。身体言語理解の実現にはまだまだ遠いかもしれませんが、このような多感覚インタラクティブなプロジェクトは、そこに至る重要な一歩となるでしょう。
ChatGPTは魅力的なツールであり、良い目的にも、あるいはあまり良くない目的にも間違いなく利用されるでしょう。しかし、ChatGPTが吐き出す言葉を理解しているなどと錯覚してはいけません。ましてや、ChatGPTが知覚を持っているなどとは決して考えないでください。
AI、チャットボット、そして機械学習の未来についてもっと知りたいですか?人工知能に関する当社の記事をぜひご覧ください。また、「最高の無料AIアートジェネレーター」や「OpenAIのChatGPTについて私たちが知っていることすべて」といったガイドもご覧ください。
アーサー・グレンバーグ(アリゾナ州立大学名誉心理学教授)とキャメロン・ロバート・ジョーンズ(カリフォルニア大学サンディエゴ校認知科学博士課程学生)
この記事はクリエイティブ・コモンズ・ライセンスに基づきThe Conversationから転載されました。元の記事はこちらです。