2023年5月16日
先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。
米プリンストン大、米スタンフォード大学、米The Nueva School、米Google、米コロンビア大学に所属する研究者らが発表した論文「TidyBot: Personalized Robot Assistance with Large Language Models」は、どこに何を入れるかを各ユーザーの収納スタイルに最適化する全自動お片付けロボットを提案した研究報告である。
床に落ちている物を拾い、目的の場所に入れるタスクを床に物が無くなるまで実行し続ける。空き缶はリサイクルボックスに入れ、おもちゃは棚の引き出しを開けて入れ閉めるなどのタスクを連続で行う。
ルンバは自動で掃除してくれるが、部屋の片付けはしてくれない。今回は部屋の片付けというタスクについて検討する。すなわち、床にあるすべての物体を 「適切な場所 」に移動させる。このタスクを実行する際の課題の1つは、すべての物体の正しい受け皿(適切な場所)を決定することである。
なぜなら、物の置き場所は人それぞれであり、文化的な規範や個人の好みに左右されるからだ。ある人はシャツをタンスの引き出しに入れ、ある人は棚に入れ、ある人はクローゼットに吊るす。このように、分類基準や収納方法には様々な好みがある。
お片付けロボットをパーソナライズするには、ユーザーの収納スタイルを含む大規模なデータセットを収集するか、手動で構築したシミュレーションシナリオからデータセットを生成する必要がある。このようなデータセットは取得にコストがかかり、小さすぎるとうまく一般化できない可能性がある。
TidyBotと呼ぶ今回のシステムは、大規模言語モデル(LLM)の要約機能を利用して、少数の収納スタイル例から汎化を行うことである。例えば、黄色いシャツは引き出しに、濃い紫色のシャツはクローゼットに、白い靴下は引き出しにというように。
そして、LLMにこれらの収納スタイルを要約してもらい、特定の人に対する好みを一般化してもらう。既存のLLM(今回は、GPT-3 text-davinci-003を活用)を使用することで、高価なユーザーの収納好みデータの収集やモデルのトレーニングを回避することができる。
実際に、前方を確認するカメラや物体を掴むロボットアームを搭載したお片付けロボットを用い、提案システムのパーソナライズ精度を調査した。ロボットが掃除を始める前に、ユーザーには何をどこに収納するかを提供してもらい、それをLLMに渡し、物体のカテゴリと受け皿を対応付ける一般化されたルールセットを構築する。
TidyBotは、ユーザーの好みをLLMで要約すると、カメラを使って床上にある最も近い物体を特定し、移動して接近、CLIPで物体のカテゴリを予測し、LLMで要約したルールで受け皿と操作(置いて入れる、投げて入れる、引き出しを開けて入れるなど)を選択して実行する。選択した受け皿に物体を入れ、この一連の処理を床上に物がなくなるまで繰り返す。
テキストベースのベンチマークデータセットと実世界のロボットシステムの両方において、TidyBotを定量的に評価した。その結果、ベンチマークのすべてのシナリオにおいて、未見の物体に対して91.2%の精度を達成できるとわかった。
また実世界のテストシナリオでは、85.0%のオブジェクトを正しく片付けることができた。さらに物体の配置を推定するだけでなく、受け皿への入れ方(例えば、置くか投げるか)のルールを推定するために容易に拡張できることが示された。
これらの結果から、LLMを用いたテキスト要約がロボット工学における汎化の手段を提供することが実証された。
Source and Image Credits: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, and Thomas Funkhouser. TidyBot: Personalized Robot Assistance with Large Language Models.
関連記事
人気記事