OpenAIは、同社の新モデルが「一般知能」テストで人間のレベルに達したと主張している。それは何を意味するのか?

OpenAIは、同社の新モデルが「一般知能」テストで人間のレベルに達したと主張している。それは何を意味するのか?

新しい人工知能(AI)モデルが、「一般知能」を測定するために設計されたテストで人間レベルの結果を達成した。

12月20日、OpenAIのo3システムはARC-AGIベンチマークで85%のスコアを獲得しました。これは、これまでのAI最高スコア55%を大きく上回り、人間の平均スコアと同等のスコアです。また、非常に難しい数学のテストでも高得点を獲得しました。

汎用人工知能(AGI)の創出は、主要なAI研究機関の明確な目標です。一見すると、OpenAIは少なくともこの目標に向けて大きな一歩を踏み出したように見えます。

懐疑的な見方は残るものの、多くのAI研究者や開発者は何かが変わったと感じています。多くの人にとって、AGIの実現は予想以上に現実的で、差し迫っており、近づいているように思えます。果たして彼らは正しいのでしょうか?

一般化と知性

o3の結果が何を意味するかを理解するには、ARC-AGIテストが一体何であるかを理解する必要があります。専門用語で言えば、これはAIシステムが新しい状況に適応する際の「サンプル効率」、つまりシステムが自らの仕組みを理解するためにどれだけ多くの新しい状況の例を見る必要があるかを測るテストです。

ChatGPT(GPT-4)のようなAIシステムは、サンプル効率があまり高くありません。数百万もの人間のテキスト例で「学習」され、どの単語の組み合わせが最も可能性が高いかについての確率的な「ルール」を構築しました。

一般的なタスクでは結果は非常に良好です。しかし、一般的でないタスクでは、データ(サンプル数)が少ないため、結果は良くありません。

AI システムが少数の例から学習し、よりサンプル効率よく適応できるようになるまでは、非常に反復的なジョブや、時折の失敗が許容されるジョブにのみ使用されることになります。

限られたデータサンプルから、これまで知られていなかった、あるいは新しい問題を正確に解決する能力は、一般化能力として知られています。これは、知能にとって不可欠な、あるいは基本的な要素であると広く考えられています。

グリッドとパターン

ARC-AGIベンチマークは、下図のような小さなグリッド問題を用いて、サンプル効率の高い適応をテストします。AIは、左側のグリッドを右側のグリッドに変えるパターンを解く必要があります。

黒いグリッドの背景に色付きの正方形がいくつか配置されたパターン。
ARC-AGIベンチマークテストのサンプルタスク。ARC
Prize

各質問には学習すべき3つの例が提示されます。AIシステムは、3つの例から4つ目の例へと「一般化」するルールを理解する必要があります。

これらは、学校で時々受けた IQ テストによく似ています。

弱いルールと適応

OpenAIがどのようにそれを実現したかは正確には分かりませんが、結果はo3モデルが非常に適応性が高いことを示唆しています。わずか数例から、一般化可能なルールを見つけ出しています。

パターンを見つけるには、不必要な仮定を立てたり、必要以上に具体的に考えたりすべきではありません。理論的には、自分が望む効果をもたらす「最も弱い」ルールを特定できれば、新しい状況への適応能力を最大限に高めることができます。

最も弱いルールとはどういう意味でしょうか?技術的な定義は複雑ですが、より弱いルールは通常、よりシンプルな文で説明できるルールです。

上記の例では、このルールを英語でわかりやすく表現すると、「突き出た線のある図形はその線の端まで移動し、重なり合う他の図形を『覆い隠す』」といった感じになります。

思考の連鎖を探索中?

OpenAIがどのようにしてこの結果を達成したかはまだ不明ですが、o3システムを意図的に最適化して弱いルールを発見しようとした可能性は低いでしょう。しかし、ARC-AGIタスクで成功するには、弱いルールを見つけているに違いありません。

OpenAI は、o3 モデルの汎用バージョン (難しい質問について「考える」時間をより多く使える点で他のほとんどのモデルとは異なります) から始めて、ARC-AGI テスト用に特別にトレーニングしたことがわかっています。

このベンチマークを設計したフランスのAI研究者フランソワ・ショレ氏は、o3はタスクを解決するための手順を記述した様々な「思考の連鎖」を探索すると考えている。そして、何らかの緩く定義されたルール、つまり「ヒューリスティック」に従って「最善」のものを選択する。

これは、Google の AlphaGo システムが囲碁の世界チャンピオンに勝つためにさまざまな可能な手順を検索した方法と「似ていないわけではない」だろう。

これらの思考の連鎖は、例に当てはまるプログラムのようなものと考えることができます。もちろん、囲碁を打つAIのような場合、どのプログラムが最適かを判断するために、ヒューリスティック、つまり緩やかなルールが必要になります。

一見同等に有効なプログラムが何千種類も生成される可能性があります。そのヒューリスティックとは、「最も弱いものを選ぶ」、あるいは「最も単純なものを選ぶ」といったものです。

しかし、AlphaGoのようなゲームであれば、AIにヒューリスティックスを作らせただけでしょう。これがAlphaGoのプロセスでした。Googleはモデルを訓練し、異なる一連の動きを他の動きよりも優れているか劣っているかを評価しました。

まだ分​​からないこと

では、これは本当にAGIに近いのだろうか?という疑問が生じます。もしO3がこのように動作するのであれば、その基盤となるモデルは以前のモデルと比べてそれほど優れているわけではないかもしれません。

モデルが言語から学習する概念は、以前よりも一般化に適しているわけではないかもしれません。むしろ、このテストに特化したヒューリスティックを訓練するという追加のステップを通じて、より一般化しやすい「思考の連鎖」が発見されただけかもしれません。いつものように、真偽のほどは試してみなければわかりません。

o3に関するほぼすべての情報は未だ不明です。OpenAIは、いくつかのメディア向けプレゼンテーションと、少数の研究者、研究所、AI安全機関による初期テストに限定して情報開示を行っています。

o3 の潜在能力を真に理解するには、評価、その能力の分布、失敗の頻度、成功の頻度の理解など、広範囲にわたる作業が必要になります。

o3 が最終的にリリースされると、それが平均的な人間とほぼ同じくらい適応力があるかどうかについて、よりよくわかるようになるでしょう。

もしそうであれば、それは莫大な革命的な経済的インパクトをもたらし、自己改善型の加速知能の新たな時代を告げることになるだろう。AGIそのものの新たなベンチマークと、そのガバナンスのあり方について真剣な検討が必要となるだろう。

そうでなくても、これは依然として素晴らしい結果と言えるでしょう。しかし、日常生活はほとんど変わらないでしょう。会話

マイケル・ティモシー・ベネット(オーストラリア国立大学コンピューティング学部博士課程学生) 、エリヤ・ペリエ(スタンフォード大学責任ある量子技術スタンフォードセンター研究員)

この記事はクリエイティブ・コモンズ・ライセンスに基づきThe Conversationから転載されました。元の記事はこちらです。

Tagged: