Googleの研究者たちは、頑固な犬に命令を聞かせるという骨の折れる作業に、ついに技術的な解決策を見つけたかもしれない。もちろん、ロボット犬を選ぶ覚悟があればの話だが。
Google DeepMindの研究科学者グループは、「SayTap」と呼ばれる大規模な言語モデルを設計しました。このモデルは、人間が犬に与える様々なコマンドを、四足歩行の犬型ロボットが理解できる形式に変換することができます。このモデルにより、犬型ロボットは、前進や後退といった基本的なコマンドだけでなく、リスを捕まえる、熱い地面を素早く走るといった状況に応じた複雑なコマンドも理解できるようになりました。
SayTap: 言語から四足歩行へ
論文ページ: https://t.co/Dk14Ds1D94
大規模言語モデル(LLM)は、高レベルのプランニングを実行できる可能性を実証しています。しかし、関節角度の目標値や…といった低レベルのコマンドをLLMが理解するのは依然として課題です。pic.twitter.com/BteEUxEmal
— AK (@_akhaliq) 2023年6月14日
これらすべてを実現するために、DeepMind の研究者たちは、四足歩行ロボットに望ましい「足接地パターン」を割り当てました。1 は地面に足が着いていることを、0 は空中に足が浮いていることを表わします。これらの入力は、さまざまな組み合わせで各 4 本の脚にマッピングされ、ロボット犬にその場で歩く、速歩する、またはその場でジャンプする方法を教えました。研究者によると、これらの足接地パターンの組み合わせは、「自然言語のユーザーコマンドと移動コントローラ間の新しいインターフェース」として機能します。たとえば、下のビデオでは、研究者が犬に「ゆっくり前に速歩して」と指示します。下部のボックスは、コンピューターモデルがその英語のコマンドをタスクに関連付けられた対応するバイナリに変換していることを示しています。これがロボット犬に送信され、ロボット犬は良い子のように忠実に従います。

見た目はクールかもしれないが、「前進」のような基本的な指示をうまく実行すること自体は、研究者によるとそれほど高度なことではない。さらに興味深いのは、SayTapの「構造化されていない曖昧な指示を処理する」能力だと彼らは指摘する。研究者たちは、モデルに簡単なヒントを与えるだけで、「ピクニックに行くよ」と指示されたロボット犬に飛び跳ねるように指示することに成功した。別のテストでは、プロモーターが「地面がとても熱いように振る舞いなさい」と指示すると、ロボット犬は素早く走り出すことを覚えた。おそらく最も面白い例として、リスから逃げるように指示された後、犬はゆっくりと後ずさりした。多くの本物の犬の飼い主は、これほどの服従を切望するだろう。
「SayTapは、自然言語と低レベルコントローラー間の新しいインターフェースとして、望ましい足の接地パターンを導入します」と研究者たちは最近のブログ投稿に記しています。「この新しいインターフェースは分かりやすく柔軟性が高く、さらに、ロボットが直接的な指示だけでなく、ロボットがどのように反応すべきかを明示的に示さないコマンドにも従うことができます。」
関係する研究者らは、ギズモードのコメント要請にすぐには応じなかった。
一般の人々の多くは、大規模言語モデルといえば、数秒で書籍ほどの長さの散文や奇抜なオリジナル画像を作り出す能力を思い浮かべるが、StayTapの研究は、これらのシステムが複雑な人間の言語を機械が理解できるプロンプトに変換する力を持っていることを強調している。研究者たちはStayTapを「実際のロボットハードウェアに移植可能な」コントローラーと表現しているが、同様の進歩によって、人間がまるで人間のように話しかけるだけで、高度なロボットに興味を持つようになる日が来ることは容易に想像できる。