VLAとワールドモデルにはウェブスケールのデータが必要です。ただし、同じデータではありません。

VLAパネルからの5つの要点:ウェブスケールの事前学習、キュレーション速度、データのプロベナンスが現実世界のロボット構築競争を定義する理由。
1 分読

Web Data LoftでのVLAナイトのまとめです。

Agility Robotics、Tesla、Prometheus、Distill LabsのエンジニアたちをサンフランシスコのBright DataのWeb Data Loftに招き、一つの問いについて議論しました:

言語モデルから現実世界で機能するロボットへと移行するには、実際に何が必要なのか?

答えは、誇大宣伝が示すよりもはるかに現実的なものでした。ボトルネックはモデルアーキテクチャだけではありません。それはトレーニングコーパスです:何を収集するか、どのように組み合わせるか、どこから来るのか、そして手作業のチームでは到底かなわないスケールでキュレーションできるかどうかです。

パネルには、Agility RoboticsのSriとAhmed、個人的な立場で発言するロボティクスMLエンジニアのAnkur、元1XおよびWaymoのPrometheusのDaniel、そしてDistill Labsの共同創業者Jacekが参加しました。司会はHackerSquadとBuilders CollectiveのAdamが務めました。

以下は、Vision-Language-Actionモデル、ワールドモデル、またはその背後にあるデータパイプラインを構築している方に重要な5つの要点です。

1. VLAはアクションヘッドを持つVLMであり、その汎化能力はウェブスケールの事前学習から生まれる

パネルの作業定義はシンプルでした:VLAはキャプション生成、セグメンテーション、オブジェクト理解などのタスクで、インターネットスケールのテキストと画像を使って学習されたビジョン言語モデルとして始まります。そこにアクションコンポーネントを追加し、ロボットデータでファインチューニングします。

この区別は重要です。ロボットデータは実行を教えます。ウェブスケールの事前学習はモデルに世界とは何かを教えます。

これが、VLAが明示的にトレーニングされていないオブジェクトを拾い上げられることがある理由です。汎化能力は少数の遠隔操作ロボットデモだけから生まれるのではありません。ロボットがループに入る前の広範な視覚的・意味的な露出から生まれるのです。

事前学習コーパスが狭いと、どれだけ高価な遠隔操作データを使っても、省略した汎化能力を取り戻すことはできません。

「インターネットスケールのテキストと画像データで学習され…その後VLMをロボットデータでファインチューニングするとVision-Language-Actionモデルが得られます。優れた点は汎化能力が高いことです:あるオブジェクトを拾うようにトレーニングすれば、似たものを見てきたので別のオブジェクトを拾うよう指示することもできます。」
Ankur、ロボティクスMLエンジニア、個人的な立場で発言。9:59から視聴 →

📖 関連記事: Vision-Language Model(VLA)とは? · ベストロボティクスAIライブラリ · 基盤モデルの解説

2. ビジョン、言語、アクションが一つのトークン空間へと統合されつつある

現代のVLAは、一つの重要な点でLLMに似てきています:次のトークンを予測することです。

そのトークンは単語、画像パッチ、または関節空間の制御コマンドである可能性があります。Distill Labsの共同創業者Jacekが説明したように、ソフトウェアエージェントとの接続は直接的です。LLMはAPIツールを呼び出します。VLAは物理的なツールを呼び出します。ハーネスは「エンドポイントを呼び出す」から「カップを掴む」へと変わりますが、基本的なパターンは似ています。

その意味は強力です:トークン化できるすべてのモダリティが同じトレーニング空間の一部になれます。ウェブ動画、一人称映像、人間のデモンストレーション、遠隔操作、オンポリシーのロボットデータはすべて共有表現に貢献できます。

制約は「モデルはこれを使えるか?」から「適切なスケールで適切な例をソースできるか?」へとシフトします。

「アクション空間はLLMのファンクションコールのように考えられます…そう分解すると、非物理的な世界で人々が構築するものとそれほど違いません。ツールを公開するハーネスでサブエージェントを起動するエージェントです。今やそのハーネスはより物理的です。それが強力な理由は、ウェブのトレーニングデータを活用してかなり良い出発点を得られるからです。」
Jacek、共同創業者、Distill Labs。15:14から視聴 →

📖 関連記事: トークン化の解説 · AIエージェントテックスタックの内側 · AIエージェントの構築方法:完全ロードマップ

3. VLAとワールドモデルは異なるデータを必要とし、混同すると高くつく

その夜の最も鋭い区別の一つは、VLAトレーニングとワールドモデルトレーニングの違いでした。

Ankurが説明したように、VLAは主に模倣学習の問題です。クリーンで成功した高品質なトラジェクトリが必要です。不良なデモンストレーションは悪影響を与える可能性があります。

ワールドモデルは異なります。アクションが与えられたときに次に何が起こるかを予測する必要があるため、成功した結果だけでなく、ミス、エッジケース、失敗も理解しなければなりません。ワールドモデルを計画や強化学習のための学習シミュレーターとして使いたい場合、可能な未来の全範囲を表現できなければなりません。

1XでワールドモデルのリードをしていたPrometheusのエンジニアDanielは、これがなぜ難しいかを説明しました。現在の多くのワールドモデルは成功した結果に偏っています。失敗しそうなトラジェクトリを示されると、ミスをモデル化する代わりにリカバリーを幻覚するかもしれません。ロボティクスでは、それは特に危険です。接触、把握、失敗が最も起こりやすい瞬間こそ、モデルはアクション制御可能でなければなりません。

要点:「ロボティクスデータ」は一つの汎用バケツではありません。模倣ポリシーとワールドモデルは意図的に異なるコーパスを必要とします。

「非常にアクション制御可能なワールドモデルが本当に必要です…オブジェクトを把握する際の正念場。そこにギャップがあると、それは本当に悪い兆候です。」
Daniel、Prometheus、元1X。35:36から視聴 →

📖 関連記事: AIモデルトレーニングとは? · AIハルシネーションの解説 · ロボティクスデータセット

4. データ階層は実在する:ウェブデータは幅広さを、ロボットデータは制御を与える

Agility RoboticsのエンジニアAhmedは、シグナルの明確な階層を示しました。

遠隔操作データには完全なロボット状態が含まれるため、最も強力な制御情報を持ちます。人間のデモンストレーションと一人称映像は直接的な制御シグナルが少なくなります。ウェブ動画は低レベルの制御層では最も少ないです。

しかしそれはウェブデータの重要性が低いということではありません。その役割が異なるということです。

ウェブスケールの動画は、セマンティクス、コンテキスト、タスク構造、オブジェクトの多様性、一般的な世界知識を教えます。部屋、ツール、人、オブジェクト、目標が膨大なバリエーションの中でどのように見えるかをモデルが理解するのに役立ちます。しかし、特定のロボット本体が特定のアクションを実行する際の細かい物理学をうまく教えることはできません。

Ankurは最もわかりやすい例えを示しました:メッシやロナウドの全動画を見てサッカーを深く理解できても、練習しなければプレーはできません。ウェブデータはゲームを教えます。ロボット上のデータは体を教えます。

実用的なデータ予算の洞察も同じ交換から生まれました:1時間のウェブデータは約5分の遠隔操作データと同等の転移可能な価値を提供する可能性があります。ウェブデータは遠隔操作の代替にはなりませんが、強力なウェブスケールの事前学習により、信頼性の高い実行に必要な高価なロボットデータの量を減らせます。

「メッシやロナウドのサッカー動画をたくさん見られますが、自分で練習するまでは本当にプレーできません。タスクの理解はウェブデータから得られます。実際に実行するには、ロボット上のデータが必要です…ウェブデータ1時間は遠隔操作データ5分と同じかもしれません。」
Ankur、ロボティクスMLエンジニア、個人的な立場で発言。1:01:09から視聴 →

📖 関連記事: AIのための動画データ · YouTube動画データセット · AIのための音声データセット · 画像データセット

5. 信頼できるスケーリング則がまだ存在しないため、キュレーション速度が優位性となる

LLMについては、業界にはKaplanとChinchillaのスケーリング則があります。VLAとワールドモデルについては、Danielははっきりと述べました:ロボティクスはまだそこに達していません。

チームはまだ、ウェブトークン、遠隔操作時間、デプロイデータ、計算量、またはモデルサイズのクリーンな関数としてロボットのパフォーマンスを確実に予測できません。課題の一部は、模倣学習とワールドモデリングが異なる監督シグナルを使用することです。もう一つは、重要なメトリクスが事前学習の損失ではなく、下流のタスク成功であることです。

Danielはまた、自動運転シミュレーションとの有益な対比を示しました。自動運転では、シミュレーションは接触が発生すると停止することが多いです。ロボティクスでは、接触こそが本当の複雑さが始まる場所です。把握、押す、滑る、変形、衝突、回復はエッジケースではありません。それがタスクです。

より良いスケーリング則が登場するまで、優位性は適切な例を最も速く見つけてキュレーションできるチームに与えられます:特定のシーン、タスクファミリー、オブジェクトインタラクション、失敗、接触豊富な瞬間。これはモデリングの課題だけではありません。ディスカバリーデータパイプラインの課題でもあります。

「フロップ数やトークン数に関するスケーリング則への回答は、LLMでは今や一般的です。Kaplanら、Chinchillaスケーリング則。今日のVLAとワールドモデルを科学的に比較するためにそれらの問いを本当には立てていません…答えはまだそこに達していないと思います。本当にそこに到達すべきです。」
Daniel、Prometheus、元1XおよびWaymo。54:35から視聴 →

📖 関連記事: データディスカバリー · ベストAIトレーニングデータプロバイダー · LLMトレーニングデータ

これがロボティクスデータ戦略に意味すること

パネルは明確な結論に収束しました:

ウェブスケールのデータはロボットに世界の幅広い理解を与えます。ロボット上のデータはその中での行動を教えます。事前学習コーパスが優れているほど、信頼性の高い実行に到達するために必要な高価なロボットデータが少なくなります。

それを実現するには、ほとんどのチームが過小評価している3つの能力が必要です:

🌐 ウェブスケールの抽出

古い分類法を持つ固定された学術データセットだけでなく、オープンウェブからのペタバイトスケールの動画、画像、音声収集。Bright Dataのウェブスケールデータ収集インフラカスタムデータソリューションをご覧ください。

最も価値のあるタスクの多様性は、タイトル、タグ、キャプションで説明されることのないシーンに現れることが多いです。キーワード検索はロングテールの多くを見逃します。Discover APIによるビジュアルおよびセマンティックディスカバリーを探索してください。

⚖️ 防御可能なプロベナンス

テキストモデルは数兆のトークンでトレーニングされます。VLAは数兆のフレームでトレーニングされます。すべてのフレームがライセンスとプロベナンスの問題を抱える可能性があり、現実世界のロボットデプロイメントはリスクを高めます。トラストセンター倫理的データ収集ガイドラインで詳細をご確認ください。

モデルは収束しつつあります。差別化要因はコーパスになりつつあります:どれだけ幅広いか、どれだけ関連性があるか、そしてその出所を守れるかどうかです。

VLAまたはワールドモデルを構築していますか?

私たちのチームに相談する → ウェブスケールでのトレーニング動画のディスカバリーとソーシングについて。

AIのためのBright Dataについて詳しく、VLA向け動画データの提供を探索するか、ロボティクス、コンピュータビジョン、マルチモーダルトレーニング用の既製データセットをご覧ください。

あなたは下記にもご興味がおありかもしれません

Best LLM Scrapers blog image
AI

2026年最高のLLMスクレイパー:究極のツール比較

2026年版トップ6 LLMスクレイパー比較表:対応モデル・価格・主要機能を網羅し、最適なツール選択を支援します。
3 分読
Best Robotics AI Libraries
AI

2026年最高のロボティクスAIライブラリ:トップ10選定

2026年におけるNVIDIA IsaacからLeRobotまで、最適なロボティクスAIライブラリを詳細比較で探求し、適切なソリューション選択を支援します。
3 分読
Building AI-Ready Vector Datasets for LLMs blog image
AI

LLMのためのAI対応ベクトルデータセット構築:Bright Data、Google Gemini、Pineconeを使ったガイド

大規模言語モデル(LLM)は、私たちが情報にアクセスし、インテリジェントなアプリケーションを構築する方法を変革しています。LLMの可能性を最大限に引き出すには、特にドメイン固有の知識や独自のデータを使用する場合、高品質で構造化されたベクトルデータセットを作成することが重要です。LLMの性能と精度は、入力データの品質に直接結びついています。準備不足のデータセットは劣悪な結果をもたらす可能性があり、一方、十分にキュレーションされたデータセットはLLMを真のドメイン・エキスパートに変えることができます。 このガイドでは、AIに対応したベクターデータセットを生成するための自動パイプラインの構築方法を順を追って説明する。 課題:LLMのためのデータ収集と準備 LLMは膨大な汎用テキストコーパスで学習されますが、商品関連のクエリへの回答、業界ニュースの分析、顧客フィードバックの解釈など、特定のタスクやドメインに適用すると、不足することがよくあります。LLMを真に役立てるには、ユースケースに合わせた高品質のデータが必要です。 このデータは通常、ウェブ上に分散していたり、複雑なサイト構造の背後に隠されていたり、ボット対策によって保護されていたりする。 当社の自動ワークフローは、データセット作成の最も困難な部分を処理する合理化されたパイプラインでこれを解決します: コア技術の概要 パイプラインを構築する前に、関連するコアテクノロジーと、それぞれがワークフローをどのようにサポートしているかを簡単に見ておこう。 ブライトデータスケーラブルなウェブデータ収集 AIに対応したベクターデータセットを作成するための最初のステップは、関連性のある高品質なソースデータを収集することです。ナレッジベースやドキュメンテーションのような内部システムから得られるものもあるが、大部分は公共のウェブから得られることが多い。 しかし、最近のウェブサイトは、CAPTCHA、IPレート制限、ブラウザフィンガープリントなどの高度なボット対策メカニズムを使用しているため、大規模なスクレイピングは困難である。 Bright Dataは、データ収集の複雑さを抽象化するWeb Unlocker APIでこの課題を解決します。プロキシのローテーション、CAPTCHAの解決、ブラウザのエミュレーションを自動的に処理するため、データへのアクセス方法ではなく、データに集中することができます。 Google Gemini: インテリジェント・コンテンツ・トランスフォーメーション Geminiは、Googleによって開発された強力なマルチモーダルAIモデルのファミリーであり、様々なタイプのコンテンツを理解し処理することに優れている。私たちのデータ抽出パイプラインにおいて、Geminiは3つの重要な機能を果たします: このAIを活用したアプローチは、特に以下のような使用例において、脆弱なCSSセレクタや壊れやすい正規表現に依存する従来の方法よりも大きな利点をもたらす: AIがデータ抽出プロセスにどのような変化をもたらしているかについては、Using AI for Web Scrapingをご覧ください。スクレイピングのワークフローにGeminiを実装するための実践的なチュートリアルをお探しの場合は、包括的なガイドをご覧ください:GeminiによるWebスクレイピングをご覧ください。 文の変形意味埋め込み文の生成 エンベッディングは、高次元空間におけるテキスト(または他のデータタイプ)の密なベクトル表現である。これらのベクトルは意味的な意味を捉え、コサイン類似度やユークリッド距離のようなメトリクスを用いて測定される、類似したテキスト片を近接したベクトルで表現することを可能にする。この特性は、セマンティック検索、クラスタリング、検索拡張生成(RAG)のようなアプリケーションで重要である。 Sentence Transformersライブラリは、高品質の文や段落の埋め込みを生成するための使いやすいインターフェースを提供する。Hugging Face Transformersの上に構築され、意味タスクのために微調整された幅広い事前学習済みモデルをサポートしています。 このエコシステムで最も人気があり、効果的なモデルの1つがオールMiniLM-L6-v2である: より大きなモデルはより微妙なエンベディングを提供するかもしれないが、all-MiniLM-L6-v2は性能、効率、コストの間で非常に優れたバランスを提供する。その384次元ベクトルは ほとんどの実用的なユースケース、特に初期段階の開発やリソースに制約のある環境では、このモデルで十分すぎる。エッジケースにおける精度のわずかな低下は、通常、スピードとスケーラビリティの大幅な向上によって相殺されます。そのため、AIアプリケーションの最初のイテレーションを構築する場合や、控えめなインフラストラクチャでパフォーマンスを最適化する場合は、all-MiniLM-L6-v2を使用することをお勧めします。 Pineconeベクトル埋め込み画像の保存と検索 テキストがベクトル埋め込みデータに変換されると、それを効率的に保存、管理、照会するための専用のデータベースが必要になります。従来のデータベースはこのために設計されていません。ベクトル・データベースは、埋め込みデータの高次元の性質を扱うために特別に設計されており、RAGパイプライン、セマンティック検索、パーソナライゼーション、その他のAI駆動型アプリケーションに不可欠なリアルタイムの類似性検索を可能にします。 Pineconeは、開発者フレンドリーなインターフェイス、低レイテンシの検索パフォーマンス、完全に管理されたインフラストラクチャで知られる人気のベクトルデータベースです。ベクトル検索インフラストラクチャの複雑さを抽象化することで、複雑なベクトルインデックスと検索を効率的に管理します。主なコンポーネントは以下の通りです: Pineconeは2つのデプロイメントアーキテクチャを提供する:ServerlessとPod-Based です。ほとんどのユースケース、特に開始時や動的な負荷に対処する場合は、シンプルさとコスト効率からサーバーレスが推奨されます。 セットアップと前提条件 パイプラインを構築する前に、以下のコンポーネントが適切に設定されていることを確認する。 前提条件 各APIキーの生成方法については、以下のツール固有の設定セクションを参照してください。 必要なライブラリのインストール このプロジェクトのコアとなるPythonライブラリをインストールする: これらのライブラリーは提供している: 環境変数の設定 プロジェクトのルート・ディレクトリに.envファイルを作成し、APIキーを追加する: ブライトデータ設定 Bright DataのWeb Unlockerを使用するには: 実装例と統合コードについては、Web Unlocker GitHub […]
6 分読