研究者たちは機械にレゴの説明書の読み方を教えた

研究者たちは機械にレゴの説明書の読み方を教えた

レゴの永遠の魅力は、セットの複雑さやポップカルチャーのアイコンを模した愛らしいミニフィギュアではなく、組み立てるプロセスそのもの、そして一見ランダムなピースの箱から完成品へと変化していく過程にあります。それは満足感を与える体験であり、スタンフォード大学の研究者のおかげで、いつかロボットに奪われるかもしれない体験の一つです。

レゴの説明書は、製作者の経歴、経験レベル、言語に関わらず、組み立てプロセスを視覚的に伝える方法のマスタークラスと言えるでしょう。必要なパーツや、組み立て途中のモデルの画像と次の画像の違いを注意深く観察すれば、次のステップに進む前にすべてのパーツをどこに配置すればいいのかが分かります。レゴは長年にわたり説明書のデザインを改良し、洗練させてきましたが、人間にとっては分かりやすいものですが、機械はステップバイステップのガイドを解釈する方法を学習し始めたばかりです。

機械がレゴで何かを組み立てることを学習する上での最大の課題の 1 つは、従来の印刷された説明書にある 3D モデルの 2 次元画像を解釈することです (ただし、現在ではいくつかのレゴ モデルは、各ステップの完全な 3D モデルを提供し、回転させてあらゆる角度から調べることができる同社のモバイル アプリを使用して組み立てることができます)。人間はレゴ ブロックの写真を見て、その 3D 構造を瞬時に判断し、ブロックの山の中から見つけることができますが、ロボットがこれを行うには、スタンフォード大学の研究者が、最近発表された論文で詳述されているように、Manual-to-Executable-Plan Network (略して MEPNet) と呼ぶ新しい学習ベースのフレームワークを開発する必要がありました。

ニューラルネットワークは、マニュアルに記載されている各ステップの個々のパーツの3D形状、形態、構造を推定するだけでなく、各ステップで提示される半組み立てモデルの全体的な形状を、その向きに関わらず解釈する必要があります。レゴのマニュアルでは、パーツを追加する場所に応じて、前のステップとは全く異なる視点から見た半組み立てモデルの画像が提供されることがよくあります。MEPNetフレームワークは、自分が見ているものを解読し、それが前のステップで生成された3Dモデルとどのように相関するかを理解する必要があり、その相関関係を理解する必要があります。

スクリーンショット: Ruocheng Wang、Yunzhi Zhang、Jiayuan Mao、Chin-Yi Cheng、Jiajun Wu
スクリーンショット: Ruocheng Wang、Yunzhi Zhang、Jiayuan Mao、Chin-Yi Cheng、Jiajun Wu

次にフレームワークは、半組み立てモデルの次の反復を以前の反復と比較することにより、各ステップで新しいピースが以前に生成された 3D モデルのどこに収まるかを判断する必要があります。レゴのマニュアルでは、パーツの配置を示すのに矢印は使われておらず、せいぜいわずかに異なる色で新しいピースを配置する必要がある場所が示される程度です。これは、印刷されたページのスキャン画像から検出するには微妙すぎる可能性があります。MEPNet フレームワークは独自にこれを判断する必要がありますが、レゴ ブロックに特有の機能、つまり、ブロック同士をしっかりと接続できるようにする上部のスタッドと下部のアンチスタッドによって、このプロセスがいくらか容易になります。MEPNet は、ピースのスタッドの位置に基づいて、レゴ ブロックを実際に積み重ねて接続する方法の位置的制限を認識します。これにより、半組み立てモデルのどこにブロックを接続できるかを絞り込むことができます。

では、プラスチックブロックの山とマニュアルをロボットアームの前に放り投げれば、数時間で完成したモデルが戻ってくると期待できるでしょうか?まだそうではありません。この研究の目的は、レゴマニュアルの2D画像を、機械が機能的に理解できる組み立て手順に変換することです。ロボットにレゴブロックの操作と組み立てを教えるというのは全く別の課題です。これはほんの第一歩に過ぎません。とはいえ、実際の組み立てプロセスを機械に任せたいと思うレゴファンがいるかどうかは分かりません。

この研究のより興味深い応用例としては、古いレゴの説明書を、現在レゴのモバイルアプリに搭載されているインタラクティブな3D組み立てガイドに自動変換できる可能性が挙げられます。また、2D画像を3Dのブロック構造に変換する仕組みをより深く理解できれば、このフレームワークを用いて、あらゆる物体の画像を変換し、それをレゴモデルに組み立てる手順を導き出すソフトウェアを開発できる可能性があります。

Tagged: