Web Data LoftでのVLAナイトのまとめです。
Agility Robotics、Tesla、Prometheus、Distill LabsのエンジニアたちをサンフランシスコのBright DataのWeb Data Loftに招き、一つの問いについて議論しました:
言語モデルから現実世界で機能するロボットへと移行するには、実際に何が必要なのか?
答えは、誇大宣伝が示すよりもはるかに現実的なものでした。ボトルネックはモデルアーキテクチャだけではありません。それはトレーニングコーパスです:何を収集するか、どのように組み合わせるか、どこから来るのか、そして手作業のチームでは到底かなわないスケールでキュレーションできるかどうかです。
パネルには、Agility RoboticsのSriとAhmed、個人的な立場で発言するロボティクスMLエンジニアのAnkur、元1XおよびWaymoのPrometheusのDaniel、そしてDistill Labsの共同創業者Jacekが参加しました。司会はHackerSquadとBuilders CollectiveのAdamが務めました。
以下は、Vision-Language-Actionモデル、ワールドモデル、またはその背後にあるデータパイプラインを構築している方に重要な5つの要点です。
1. VLAはアクションヘッドを持つVLMであり、その汎化能力はウェブスケールの事前学習から生まれる
パネルの作業定義はシンプルでした:VLAはキャプション生成、セグメンテーション、オブジェクト理解などのタスクで、インターネットスケールのテキストと画像を使って学習されたビジョン言語モデルとして始まります。そこにアクションコンポーネントを追加し、ロボットデータでファインチューニングします。
この区別は重要です。ロボットデータは実行を教えます。ウェブスケールの事前学習はモデルに世界とは何かを教えます。
これが、VLAが明示的にトレーニングされていないオブジェクトを拾い上げられることがある理由です。汎化能力は少数の遠隔操作ロボットデモだけから生まれるのではありません。ロボットがループに入る前の広範な視覚的・意味的な露出から生まれるのです。
事前学習コーパスが狭いと、どれだけ高価な遠隔操作データを使っても、省略した汎化能力を取り戻すことはできません。
「インターネットスケールのテキストと画像データで学習され…その後VLMをロボットデータでファインチューニングするとVision-Language-Actionモデルが得られます。優れた点は汎化能力が高いことです:あるオブジェクトを拾うようにトレーニングすれば、似たものを見てきたので別のオブジェクトを拾うよう指示することもできます。」
— Ankur、ロボティクスMLエンジニア、個人的な立場で発言。9:59から視聴 →
📖 関連記事: Vision-Language Model(VLA)とは? · ベストロボティクスAIライブラリ · 基盤モデルの解説
2. ビジョン、言語、アクションが一つのトークン空間へと統合されつつある
現代のVLAは、一つの重要な点でLLMに似てきています:次のトークンを予測することです。
そのトークンは単語、画像パッチ、または関節空間の制御コマンドである可能性があります。Distill Labsの共同創業者Jacekが説明したように、ソフトウェアエージェントとの接続は直接的です。LLMはAPIツールを呼び出します。VLAは物理的なツールを呼び出します。ハーネスは「エンドポイントを呼び出す」から「カップを掴む」へと変わりますが、基本的なパターンは似ています。
その意味は強力です:トークン化できるすべてのモダリティが同じトレーニング空間の一部になれます。ウェブ動画、一人称映像、人間のデモンストレーション、遠隔操作、オンポリシーのロボットデータはすべて共有表現に貢献できます。
制約は「モデルはこれを使えるか?」から「適切なスケールで適切な例をソースできるか?」へとシフトします。
「アクション空間はLLMのファンクションコールのように考えられます…そう分解すると、非物理的な世界で人々が構築するものとそれほど違いません。ツールを公開するハーネスでサブエージェントを起動するエージェントです。今やそのハーネスはより物理的です。それが強力な理由は、ウェブのトレーニングデータを活用してかなり良い出発点を得られるからです。」
— Jacek、共同創業者、Distill Labs。15:14から視聴 →
📖 関連記事: トークン化の解説 · AIエージェントテックスタックの内側 · AIエージェントの構築方法:完全ロードマップ
3. VLAとワールドモデルは異なるデータを必要とし、混同すると高くつく
その夜の最も鋭い区別の一つは、VLAトレーニングとワールドモデルトレーニングの違いでした。
Ankurが説明したように、VLAは主に模倣学習の問題です。クリーンで成功した高品質なトラジェクトリが必要です。不良なデモンストレーションは悪影響を与える可能性があります。
ワールドモデルは異なります。アクションが与えられたときに次に何が起こるかを予測する必要があるため、成功した結果だけでなく、ミス、エッジケース、失敗も理解しなければなりません。ワールドモデルを計画や強化学習のための学習シミュレーターとして使いたい場合、可能な未来の全範囲を表現できなければなりません。
1XでワールドモデルのリードをしていたPrometheusのエンジニアDanielは、これがなぜ難しいかを説明しました。現在の多くのワールドモデルは成功した結果に偏っています。失敗しそうなトラジェクトリを示されると、ミスをモデル化する代わりにリカバリーを幻覚するかもしれません。ロボティクスでは、それは特に危険です。接触、把握、失敗が最も起こりやすい瞬間こそ、モデルはアクション制御可能でなければなりません。
要点:「ロボティクスデータ」は一つの汎用バケツではありません。模倣ポリシーとワールドモデルは意図的に異なるコーパスを必要とします。
「非常にアクション制御可能なワールドモデルが本当に必要です…オブジェクトを把握する際の正念場。そこにギャップがあると、それは本当に悪い兆候です。」
— Daniel、Prometheus、元1X。35:36から視聴 →
📖 関連記事: AIモデルトレーニングとは? · AIハルシネーションの解説 · ロボティクスデータセット
4. データ階層は実在する:ウェブデータは幅広さを、ロボットデータは制御を与える
Agility RoboticsのエンジニアAhmedは、シグナルの明確な階層を示しました。
遠隔操作データには完全なロボット状態が含まれるため、最も強力な制御情報を持ちます。人間のデモンストレーションと一人称映像は直接的な制御シグナルが少なくなります。ウェブ動画は低レベルの制御層では最も少ないです。
しかしそれはウェブデータの重要性が低いということではありません。その役割が異なるということです。
ウェブスケールの動画は、セマンティクス、コンテキスト、タスク構造、オブジェクトの多様性、一般的な世界知識を教えます。部屋、ツール、人、オブジェクト、目標が膨大なバリエーションの中でどのように見えるかをモデルが理解するのに役立ちます。しかし、特定のロボット本体が特定のアクションを実行する際の細かい物理学をうまく教えることはできません。
Ankurは最もわかりやすい例えを示しました:メッシやロナウドの全動画を見てサッカーを深く理解できても、練習しなければプレーはできません。ウェブデータはゲームを教えます。ロボット上のデータは体を教えます。
実用的なデータ予算の洞察も同じ交換から生まれました:1時間のウェブデータは約5分の遠隔操作データと同等の転移可能な価値を提供する可能性があります。ウェブデータは遠隔操作の代替にはなりませんが、強力なウェブスケールの事前学習により、信頼性の高い実行に必要な高価なロボットデータの量を減らせます。
「メッシやロナウドのサッカー動画をたくさん見られますが、自分で練習するまでは本当にプレーできません。タスクの理解はウェブデータから得られます。実際に実行するには、ロボット上のデータが必要です…ウェブデータ1時間は遠隔操作データ5分と同じかもしれません。」
— Ankur、ロボティクスMLエンジニア、個人的な立場で発言。1:01:09から視聴 →
📖 関連記事: AIのための動画データ · YouTube動画データセット · AIのための音声データセット · 画像データセット
5. 信頼できるスケーリング則がまだ存在しないため、キュレーション速度が優位性となる
LLMについては、業界にはKaplanとChinchillaのスケーリング則があります。VLAとワールドモデルについては、Danielははっきりと述べました:ロボティクスはまだそこに達していません。
チームはまだ、ウェブトークン、遠隔操作時間、デプロイデータ、計算量、またはモデルサイズのクリーンな関数としてロボットのパフォーマンスを確実に予測できません。課題の一部は、模倣学習とワールドモデリングが異なる監督シグナルを使用することです。もう一つは、重要なメトリクスが事前学習の損失ではなく、下流のタスク成功であることです。
Danielはまた、自動運転シミュレーションとの有益な対比を示しました。自動運転では、シミュレーションは接触が発生すると停止することが多いです。ロボティクスでは、接触こそが本当の複雑さが始まる場所です。把握、押す、滑る、変形、衝突、回復はエッジケースではありません。それがタスクです。
より良いスケーリング則が登場するまで、優位性は適切な例を最も速く見つけてキュレーションできるチームに与えられます:特定のシーン、タスクファミリー、オブジェクトインタラクション、失敗、接触豊富な瞬間。これはモデリングの課題だけではありません。ディスカバリーとデータパイプラインの課題でもあります。
「フロップ数やトークン数に関するスケーリング則への回答は、LLMでは今や一般的です。Kaplanら、Chinchillaスケーリング則。今日のVLAとワールドモデルを科学的に比較するためにそれらの問いを本当には立てていません…答えはまだそこに達していないと思います。本当にそこに到達すべきです。」
— Daniel、Prometheus、元1XおよびWaymo。54:35から視聴 →
📖 関連記事: データディスカバリー · ベストAIトレーニングデータプロバイダー · LLMトレーニングデータ
これがロボティクスデータ戦略に意味すること
パネルは明確な結論に収束しました:
ウェブスケールのデータはロボットに世界の幅広い理解を与えます。ロボット上のデータはその中での行動を教えます。事前学習コーパスが優れているほど、信頼性の高い実行に到達するために必要な高価なロボットデータが少なくなります。
それを実現するには、ほとんどのチームが過小評価している3つの能力が必要です:
🌐 ウェブスケールの抽出
古い分類法を持つ固定された学術データセットだけでなく、オープンウェブからのペタバイトスケールの動画、画像、音声収集。Bright Dataのウェブスケールデータ収集インフラとカスタムデータソリューションをご覧ください。
🔍 キーワード検索を超えたビジュアルディスカバリー
最も価値のあるタスクの多様性は、タイトル、タグ、キャプションで説明されることのないシーンに現れることが多いです。キーワード検索はロングテールの多くを見逃します。Discover APIによるビジュアルおよびセマンティックディスカバリーを探索してください。
⚖️ 防御可能なプロベナンス
テキストモデルは数兆のトークンでトレーニングされます。VLAは数兆のフレームでトレーニングされます。すべてのフレームがライセンスとプロベナンスの問題を抱える可能性があり、現実世界のロボットデプロイメントはリスクを高めます。トラストセンターと倫理的データ収集ガイドラインで詳細をご確認ください。
モデルは収束しつつあります。差別化要因はコーパスになりつつあります:どれだけ幅広いか、どれだけ関連性があるか、そしてその出所を守れるかどうかです。
VLAまたはワールドモデルを構築していますか?
私たちのチームに相談する → ウェブスケールでのトレーニング動画のディスカバリーとソーシングについて。
AIのためのBright Dataについて詳しく、VLA向け動画データの提供を探索するか、ロボティクス、コンピュータビジョン、マルチモーダルトレーニング用の既製データセットをご覧ください。