サーチAPIはエージェントにウェブデータへの高速アクセスを提供します。しかし、本番ワークロードでは、背後のデータが古かったり不完全だったりすると、高速アクセスだけでは不十分です。エージェントは受け取ったデータに基づいて報告します。
例えば、競合他社が一晩でpricing pageを変更したとします。エージェントはページを検出しますが、数時間前のキャッシュされたサマリーを返します。実際のページコンテンツを読んだり、価格履歴と比較したり、変更の背後にある戦略を示す非明示的なソースを見つけたりすることができません。
TL;DR:
サーチAPIはプロトタイプに有効です。本番AIエージェントは5つの構造的な制限に直面します:鮮度、再現率、完全なコンテンツ、スループット、そして過去のベースラインです。知識サプライチェーンがこれらを解決します。
- サーチAPIはキャッシュされたスニペットを返します。本番エージェントには意図でランク付けされた結果と完全なページコンテンツが必要です。
- GoogleはSERPベースのデータアクセスを制限しています。単一のSERPパスは単一障害点です。
- Bright DataのDiscover API、Web Unlocker、SERP API、データセットが4層の知識サプライチェーンを形成します。
- 両アーキテクチャを実行可能なコードと実際の出力で比較します。最後に意思決定フレームワークと参照テーブルを掲載します。
サーチAPIと知識サプライチェーン:主要な定義
サーチAPIカテゴリが存在するのは、トレーニングデータセットだけでは不十分だったからです。チャットボットとエージェントはウェブデータへのライブアクセスを必要としていました。ライブデータを取得することは最初の問題に過ぎません。より難しい問題は、質問に答えるためではなく、意思決定を支援するのに十分な深さ、鮮度、検証可能性を持ってデータを取得することです。
インフラの意思決定を定義する2つの用語があります。それぞれが実際に何を意味するかを説明します。
サーチAPI:
サーチAPIは、クエリを受け取り、既存の検索インデックスから取得したURLのランク付きリストおよび/またはページサマリーを返すエンドポイントです。低レイテンシと統合の容易さに最適化されています。出力は現在インデックスされているもののスナップショットであり、クエリ時点でのウェブのライブ状態を反映している場合もあれば、そうでない場合もあります。
知識サプライチェーン:
知識サプライチェーンとは、AIエージェントがウェブデータを継続的に取得、検証、コンテキスト化するために使用するエンドツーエンドのインフラです。ライブディスカバリー、フルページコンテンツ抽出、本番規模のスループット、そして過去のデータセットを組み合わせています。各レイヤーは異なる問題を解決します:鮮度、カバレッジ、検証可能性、並列処理、評価です。単一のAPI呼び出しではなく、アーキテクチャです。
2つのアプローチは3つの軸で異なります:
| サーチAPI | 知識サプライチェーン | |
|---|---|---|
| モデル | シングルコール、スナップショットベース | マルチレイヤー、パイプラインベース |
| 最適化対象 | 速度 | 証拠品質 |
| 出力 | ランク付きリンク+サマリー | 検証済みコンテンツ+コンテキスト+履歴 |
この区別が重要なのは、TinyFishのCEOであるSudheesh Nairが述べたように:「検索は人間の限界を中心に構築されたショートカットだ」からです。人間は処理できる結果数が限られているため、10件の青いリンクが必要です。エージェントはインターネットをトップ10リストに圧縮する必要はありません。それらのリンクの背後にあるコンテンツを、検証済みでコンテキストに沿った形で必要としています。
もう一つの定義:市場認識型エージェント。これらは収益、リスク、または業務に影響する意思決定を行うエージェントです:価格インテリジェンス、競合対応、規制監視、サプライチェーン追跡。これらは、もっともらしいサマリーではなく、検証可能なグラウンドトゥルースを必要とします。
現在、自律型AIエージェントの本番デプロイメントを持つ組織はわずか11%です(Deloitte Tech Trends 2026)。しかし、公開ウェブデータでAIを構築している組織の97%がすでにリアルタイムウェブインフラに依存しています(Data for AI 2026)。そのギャップが問題です。今行われているインフラの意思決定が、どのエージェントが成功し、どのエージェントが誰も監査できない自信満々な回答を生成するかを決定します。
誤った回答の最悪のケースがユーザーがクエリを再試行することであれば、サーチAPIで十分です。最悪のケースがチームが誤った情報に基づいて行動することであれば、知識サプライチェーンが必要です。
サーチAPIが優れている点(そしてそれが重要な理由)
TavilyのようなサーチAPIは特定のコンテキストで真の価値を提供します:
サブ秒レイテンシ。応答時間がUXのKPIである場合(インタラクティブチャット、ユーザーが待機しているエージェント向けツール呼び出し)、サーチAPIはこのために特別に設計されています。Proxyway Search API Report 2026では、インデックスベースのプロバイダーが0.4秒未満の中央値応答時間を達成することが確認されました。多くのユースケースでは、速度が優先事項です。
最小限の統合摩擦。ネイティブLangChainサポート、十分に文書化されたエンドポイント。プロトタイプでウェブ検索が必要な開発者にとって、統合は数分で完了します。
プロトタイプと軽量Q&Aに強い。サーチAPIはRAGデモ、内部チャットボット、低リスクのエンリッチメントワークフローをうまく処理します。Tavilyは特に引用可能な出力とソース信頼性スコアリングを提供しており、エージェント出力にソース引用が必要な場合に便利です。
低スケールでのコスト低減。1クレジットあたり$0.008(Tavilyの価格)で、実験への障壁はほぼゼロです。
プロトタイプ、チャットボット、または軽量Q&Aワークフローを構築している場合、サーチAPIが適切なツールです。制限は賭けが高くなったときに現れます。
上限:本番規模でサーチAPIが直面する5つのギャップ
以下のギャップはサーチAPIへの批判ではなく、構造的な制約です。AIエージェントは完全なSERPを必要としません。広告、ウィジェット、モバイルレイアウトは知識ルックアップに何も追加しません。
Proxyway SERP APIレポートは、Fast APIはSERPを提供するがその背後のページは提供しないこと、Index APIは事前構築されたコーパスからページを返すためライブウェブより遅れる可能性があることを確認しました。どちらのアーキテクチャも単独では問題を解決しません。
ギャップ1:鮮度 – キャッシュされたインデックスは古いグラウンドトゥルースを提供する
サーチAPIはキャッシングと事前インデックス化によってレイテンシ目標を達成します。a16zの「Search Wars」分析が「主に人間向けに最適化されている」と説明したアーキテクチャを継承しており、現在依存しているエージェントワークフロー向けではありません。
それらのベンチマークは結果として生じる3層の分割を文書化しました:Full APIはリアルタイムでスクレイピングします(P95が5秒超)。Fast APIはコアSERP要素を素早く返します(中央値0.6〜0.7秒)。Index APIは事前スクレイピングされたコーパスから提供します(P50が0.4秒未満)、「データのコーパスが古いか不完全になるリスクがある」。
価格インテリジェンス、ポリシー監視、速報ニュースでは、キャッシュされた結果は誤った結果です。Bright Data Web Discovery Summit 2026では、スピーカーたちがデータ半減期の観点から問題を説明しました:ソーシャルメディアデータは数分または数時間で関連性を失います。非ソーシャルウェブデータ(pricing page、求人リスト、製品カタログ)は数日以内に劣化します。昨日更新された検索インデックスは、すでに有効な半減期を過ぎたデータを提供している可能性があります。
pricing pageは一晩で変更されましたが、検索インデックスは次のクロールまでそれを反映しません。エージェントは古いデータに基づいて自信を持って報告します。そして問題は悪化しています。
GoogleはSERPベースのデータアクセスを積極的に低下させています。AIエージェントは「閲覧を気にせず、広告の購入も確かに気にしない」(SERP API Report, 2026)。これは広告モデルへの直接的な脅威です。
同レポートは、SearchGuardがスクレイピングコストを約10倍増加させたことを記録しました。&num=100パラメータは完全に削除されました。2025年12月、GoogleはDMCAに基づいてSERP APIプロバイダーを訴え、回避行為1件につき$200〜$2,500を求めました(Proxyway SERP API Report, 2026)。Googleがアクセスを厳しくするにつれて、鮮度のギャップは悪化しています。
データパスが検索インデックスのみに依存している場合、信頼性の問題があります。Bright Dataは検索結果のスクレイピングだけでなく、複数の収集方法を通じてクエリ時点でのウェブの現在の状態を取得します。エージェントとグラウンドトゥルースの間に単一のインデックスが介在することはありません。
ギャップ2:再現率 – 検索インデックスのスニペットでは不十分
サーチAPIは検索インデックスからスニペットを返します。結果はインデックス独自のアルゴリズムによってランク付けされており、エージェントのリサーチタスクの背後にある特定の意図ではなく、キーワードクエリに最適化されています。チャットボットにはこれで機能します。競合インテリジェンスエージェントには2つの問題が現れます。
第一に、キーワードでランク付けされた結果は、リサーチエージェントが実際に必要とするものと一致しない場合があります。同サミットで、パネリストたちは本番のディープリサーチ呼び出しが初期段階のランキングシグナルに基づいて10,000のURLを考慮できることを説明しました。エージェントはその5〜30%を読み、最終的な回答で1〜5%を引用します。
サーチAPIはインデックスがキーワードに対して最高にランク付けしたものを返します。エージェントのタスクの背後にある特定の意図でフィルタリングしません。
第二に、基礎となるデータへのアクセスが増加しています。2026年のウェブスクレイピング業界調査では、業種別トップサイトでデータアクセスが急激に低下していることがわかりました:eコマースは2020年の10サイト中9サイトアクセス可能から10サイト中4サイトに低下しました。
ソーシャルメディアアクセスは5サイト中4サイトから5サイト中0サイトに低下しました。不動産は10サイト中10サイトから10サイト中3サイトに低下しました。ウェブのカテゴリー全体が標準的なデータセンターアクセスでは到達不能になっています。
Bright DataのDiscover API(現在ベータ版)は、1回の呼び出しで最大20件の結果を返し、記述された意図に対する関連性でランク付けされ、オプションでフルページコンテンツをインラインで含みます。ライブテストでは、同じクエリの標準的なSERP呼び出しが返さなかったNotion AIの価格変更に関するソース(関連性:0.78)を見つけました。
競合インテリジェンスで最も重要なシグナルはページ1にはほとんどありません。それらはロングテールにあります:新しい市場参入を示す求人投稿、未発表のSKUを持つディストリビューターリスト、サポート担当者がロードマップを確認したフォーラムスレッド。これらはトップ10のSERP応答にはほとんど表示されません。
ギャップ3:エージェントはソースコンテンツではなくサマリーを見る
サーチAPIは設計上サマリーファーストです。デフォルトで抽出されたスニペットと説明を返し、概要として便利です。しかし、サマリーは検証可能な証拠ではありません。
完璧な推論に貧弱な検索が加わっても、まだハルシネーションが生まれます。AI検索評価のフレームワークは、LLMの推論能力がすでにほとんどの検索システムが返すものを超えていることを示しました。ボトルネックはモデルではなくデータです。
市場認識型エージェントにとって、コストは誤ったチャットボット応答ではありません。誤ったビジネス上の意思決定です。
高リスクの意思決定を行うエージェントには、言い換えではなく実際のソーステキストが必要です。同イベントで、エージェントを構築するエンタープライズバイヤーは、顧客が求める最もリッチなコンテンツ(LinkedInの投稿、Twitterスレッド)はSERP結果が返すものではないと指摘しました。代わりに、上位の結果はそのコンテンツを参照するブログ投稿です。一次ソースからの完全な抽出は、検索ランキングの品質よりも重要です。
フルコンテンツが重要なもう一つの理由があります:ウェブはますます合成的になっています。2025年のウェブデータ業界カンファレンスで、研究者のDomagoj Maricは10,000件の偽のボットコメントが$2で生成できることを実証しました。フルコンテンツの検証なしに、エージェントは本物のレビューと作られたノイズを区別できません。2026年のウェブスクレイピング業界調査では、AIツールを使用する専門家がハルシネーションを最大の懸念事項として報告しました。
エージェントがどのように結論に達したかを尋ねられたとき、タイムスタンプ付きの実際のコンテンツが必要です。スニペットは監査には不十分です。
Bright DataのDiscover APIは、クリーンなフルページコンテンツをMarkdown形式でインラインで返します。パラメータ一つで、余分なラウンドトリップは不要です。
ギャップ4:スループット – RPM上限が隠れたアーキテクチャの負債を生む
サーチAPIはレート制限を適用します。例えばTavilyは本番プランで1,000 RPM(毎分リクエスト数)に制限しています。単一のリサーチタスクを実行する単一のエージェントにはこれで十分です。しかし、数千のリサーチタスクを並行して実行するエージェントのフリートを考えてみましょう:何百もの競合他社の競合監視、数十の市場での価格監視、複数の管轄での規制チェック。1,000 RPMでは、ページネーションロジック、リトライハンドラー、指数バックオフ戦略、キュー管理を構築することを強いられます。
結果は純粋なグルーコードであり、システムを接続するが何のビジネス価値も追加しない統合ロジックです。ステージングでは機能し、本番では壊れ、誰もメンテナンスの時間を予算化しません。
並行性の問題は複合化します。Search APIベンチマークは、フルSERP APIがレイテンシとボリュームでのコストのために「AIワークロードへの適合性が限られている」と指摘しました。サミットで、ある金融データ会社は、150,000社の企業の150種類の重要イベントを毎日監視するには、SERP API料金だけで月約340万ドルかかると計算しました。
本番の現実と比較してください。2025年のウェブデータ業界カンファレンスで、CentricSoftwareは製品インテリジェンスだけで1日1億3,000万リクエストを行う5,000台のスクレイパーを運用していることを開示しました。1,000 RPMではありません。
Bright DataのSERP APIにはハードな同時リクエスト制限がありません。スループットはワークロードに合わせてスケールします。
ギャップ5:過去のベースラインなし – 比較できないものは評価できない
ギャップ5は、エージェントの出力品質を改善しようとするときに現れます。
エージェントが実際の異常を検出しているのか、パターンをハルシネーションしているのかをどうやって判断しますか?ベースラインが必要です。また、時間をかけて出力品質をベンチマークするための再現可能な過去データが必要です。そして、競合価格履歴を最初から再収集せずに新しいエージェントにバックフィルしたい場合は、データセットが必要です。
サーチAPIは設計上ライブのみです。Boaz Grinvald(GM、Bright Insights)が指摘したように、リアルタイムインテリジェンスを適切に評価するには、より深いコンテキストが必要です。競合他社が今日価格を下げたことを知っていても、カテゴリ全体の価格が上昇しているため、その値下げが対応を必要としないかもしれないことを知らなければ、無意味です。
そのコンテキストレイヤーは過去データでのみ存在します。先四半期の価格データについてサーチAPIに尋ねると、先四半期についての今日の検索結果が返ってきますが、それはまったく別のことです。
ベースラインの構築はほとんどのチームが予想するよりも手頃です。研究者のAndrew Chanは10億ウェブページを25.5時間で$462でクロールできることを実証しました。Bright Dataは2,000億以上のアーカイブされたHTMLページを維持しており、月に150億ページずつ増加しています。
B2Bデータは月約2.1%の割合で劣化し、年間22%以上に複合します(MarketingSherpa)。過去のコンテキストがなければ、エージェントは本物の価格異常と通常の季節変動を区別できません。
そのサミットで、あるデータ会社の創業者は、関連する求人投稿とLinkedInスキル追加の突然の増加を時間をかけて観察することで、顧客が新しい技術を採用したときを検出したと説明しました。その時系列シグナルは縦断的クロールを通じてのみ見えるもので、最大の取引の一つを顧客が契約したときを予測するのに役立ちました。現在のウェブの状態を返すサーチAPIでは、このようなシグナルを検出できません。Bright Dataのデータセットは、バックフィル、ベースライン、再現可能な評価のためのトピック構造化された過去データを、JSON、CSV、またはParquet形式で提供します。
サーチAPIと知識サプライチェーン:7つの主要な次元
同じコスト分析により、インデックスベースのAPIは約1,000リクエストあたり$5で収束することがわかりました。彼らの言葉を借りれば:「リアルタイムAPIはほぼ常に安くなります。ただし、インデックスと同じ結果を得るためにはより多くの作業が必要です」。Bright DataのSERP APIは従量課金制で1,000件あたり$1.50から始まります。その「より多くの作業」こそが知識サプライチェーンが自動化するものです。
典型的な知識サプライチェーンワークフロー(1回のDiscover呼び出し、いくつかのWeb Unlockerページフェッチ、1回のDatasetクエリ)は、リサーチタスクごとに一桁ドルの範囲で実行されます。同じ作業をアナリストが手動で行う場合は約30〜60分かかります。
2つのアーキテクチャを7つの次元で比較します:
| # | 次元 | Bright Data | サーチAPI(カテゴリ) | Tavily(例) |
|---|---|---|---|---|
| 1 | 鮮度 | ライブディスカバリーと抽出 | 速度のためにキャッシング/インデックスを使用する場合あり | キャッシュ/インデックスされた結果を返す場合あり – 最新性は保証されない |
| 2 | クエリあたりの再現率 | オプションのフルページコンテンツを含む最大20件の関連性ランク付き結果(Discover API) | トップKに最適化 | 1回の呼び出しでスニペットレベルの結果が最大20件 |
| 3 | 検証可能なコンテキスト | オプションのクリーンなフルページコンテンツインライン(Markdown) | 多くの場合サマリーファースト | デフォルトでサマリーファースト |
| 4 | スループット | 本番規模、並行ワークロード向けに構築 | RPMによって制限されることが多い | 本番制限1,000 RPM |
| 5 | レイテンシプロファイル | 信頼性の高い本番ディスカバリー+低レイテンシオプション(Fast SERP) | 低レイテンシに最適化、多くの場合キャッシングによる | 非常に高速、レイテンシを優先 |
| 6 | PAYG価格/1,000リクエスト | $1.50から(SERP PAYG) | 様々 | $8(1クレジット)〜$16(2クレジット)/1,000件 |
| 7 | 過去のデータセット | バックフィルとベースライン用のトピック構造化データセット | カテゴリのコアではない | データセット製品ではない |
コストとレイテンシのトレードオフはユースケースによって異なります。
デモ:同じエージェント、2つのインフラ
同じ競合インテリジェンスエージェントを2回構築します:同一のタスク、同一のLLM、同一のシステムプロンプト。変わるのは下のデータインフラだけです。
両方のエージェントはBright Dataのエンドポイントを使用します。これは意図的です:ベンダーの違いを排除します。唯一の変数はアーキテクチャです:1つのツール対3つ。
シナリオ
ディスカバリー、フルページ抽出、過去のコンテキストを必要とするため、競合価格インテリジェンスタスクを選択しました。
競合価格インテリジェンスエージェント
タスク:競合他社のSaaS pricing pageを監視し、変更を検出し、過去の価格トレンドと照らし合わせてコンテキスト化し、これが構造的な戦略転換なのか一時的なプロモーションなのかを評価します。
このタスクはサーチAPIだけでは適切に完了することが不可能です。a16zはディープリサーチを「エージェント型検索の支配的で最も収益化可能な形態」と特定しました(「Search Wars: Episode 2」、2025年)。このタスクには鮮度、再現率、フルコンテンツ、履歴が必要です。
フレームワーク:両エージェントはLangChainで構築されたLangGraph競合インテリジェンスエージェントで、Bright DataのREST APIを使用します(SERPおよびWeb UnlockerツールにはPyPI langchain-brightdataも利用可能)。コードはGPT-4oを使用します。アーキテクチャがLLMに依存しないことを確認するためにCohere Command-Aで出力をテストしました。同じシステムプロンプト。異なるツール。
エージェント1:サーチAPIパターン
エージェント1は単一のSERPエンドポイントをラップします。1つのツール、1つのデータソース:
# Agent 1: Search API pattern
# Single SERP endpoint, snippet-level output
import os
import requests
from langgraph.prebuilt import create_react_agent
from langchain_openai import ChatOpenAI
from langchain_core.tools import tool
@tool
def search_web(query: str) -> str:
"""Search the web and return top results."""
response = requests.post(
"https://api.brightdata.com/request",
headers={
"Authorization": f"Bearer {os.environ['BRIGHT_DATA_API_KEY']}",
"Content-Type": "application/json"
},
json={
"zone": os.environ["SERP_ZONE"],
"url": f"https://www.google.com/search?q={query}&num=10&brd_json=1",
"format": "raw"
}
)
# Response contains: organic[] with title, link, description per result
results = response.json()
organic = results.get("organic", [])[:10]
return "n".join([
f"- {r.get('title')}: {r.get('description', '')[:200]}"
for r in organic
])
llm = ChatOpenAI(model="gpt-4o")
search_api_agent = create_react_agent(
llm,
tools=[search_web],
state_modifier="""You are a competitive intelligence analyst.
Use web search to analyze competitor pricing changes.
Provide a structured assessment with your findings."""
)
result_1 = search_api_agent.invoke({
"messages": [{
"role": "user",
"content": "Analyze recent pricing changes for [Competitor]. "
"Has their pricing strategy shifted? "
"What does this mean for our positioning?"
}]
})
これをNotionのpricing pageに対してライブでテストしました。
AGENT 1 OUTPUT (Search API):
Sources consulted: 10 Google results (snippets only)
Content depth: Titles + 200-char descriptions
Finding: Notion's pricing strategy in 2026 appears to be
tiered, with four main plans: Free, Plus, Business, and
Enterprise. The Plus plan is priced at $10 per user per month
and is designed for small teams. The Business plan is priced
at $18-$20 per user per month and includes additional features
such as AI integration.
Confidence: Confident (based on snippets alone).
エージェントはスニペットから合理的な分析を生成しました。4つのティアと概算価格を特定しました。しかし、実際のpricing pageを読めず、最近の価格変更に関するRedditやフォーラムのディスカッションを見つけられず、現在の価格が変化を表しているかどうかを判断するための過去のコンテキストがありませんでした。
エージェント2:知識サプライチェーンパターン
同じタスクを、Bright DataのDiscover API、Web Unlocker、データセットがライブディスカバリー、フルコンテンツ抽出、過去のベースラインを提供して実行します:
# Agent 2: Knowledge Supply Chain
# Live discovery + full content + historical baseline
import os
import json
import time
import requests
from langgraph.prebuilt import create_react_agent
from langchain_openai import ChatOpenAI
from langchain_core.tools import tool
HEADERS = {
"Authorization": f"Bearer {os.environ['BRIGHT_DATA_API_KEY']}",
"Content-Type": "application/json"
}
# Tool 1: Intent-ranked live discovery via Discover API
@tool
def discover_sources(query: str, intent: str) -> str:
"""Search the live web using Bright Data's Discover API.
Returns relevance-ranked results with full page content."""
response = requests.post(
"https://api.brightdata.com/discover",
headers=HEADERS,
json={
"query": query,
"intent": intent,
"num_results": 20,
"include_content": True,
"filter_keywords": ["pricing", "enterprise", "plan"],
"start_date": "2025-01-01", # adjust to your lookback window
"country": "US",
"language": "en"
}
)
task_id = response.json()["task_id"]
# Expected response: {"status": "ok", "task_id": "uuid-here"}
# Poll until results are ready (async API, 90s timeout)
for _ in range(45):
result = requests.get(
f"https://api.brightdata.com/discover?task_id={task_id}",
headers=HEADERS
)
data = result.json()
if data["status"] == "done":
break
time.sleep(2)
else:
return "Discovery timed out. Try a narrower query."
# Each result contains: title, link, description, relevance_score (float),
# and content (full page markdown when include_content=True)
results = data.get("results", [])
formatted = []
for r in results:
entry = (f"- {r['title']} ({r['link']}) "
f"[relevance: {r['relevance_score']:.2f}]")
if r.get("content"):
entry += f"n {r['content'][:500]}"
formatted.append(entry)
return f"Discovered {len(results)} sources:n" + "n".join(formatted)
# Tool 2: Targeted page extraction for specific URLs
# (Discover finds sources; Web Unlocker reads a specific page you choose)
@tool
def fetch_full_content(url: str) -> str:
"""Fetch and return the full cleaned content of a specific
webpage in Markdown format via Web Unlocker."""
response = requests.post(
"https://api.brightdata.com/request",
headers=HEADERS,
json={
"zone": os.environ["UNLOCKER_ZONE"],
"url": url,
"format": "raw",
"data_format": "markdown"
}
)
# Returns full page content as cleaned Markdown text
return response.text[:8000]
# Tool 3: Historical dataset baseline
@tool
def get_historical_pricing_data(competitor_domain: str) -> str:
"""Retrieve historical pricing snapshots from Bright Data
Datasets for baseline comparison."""
response = requests.post(
"https://api.brightdata.com/datasets/v3/trigger",
params={"dataset_id": os.environ["PRICING_DATASET_ID"]},
headers=HEADERS,
json=[{"url": f"https://{competitor_domain}/pricing"}]
)
# Returns: {"snapshot_id": "sd_xxxxx"} for async data retrieval
snapshot_id = response.json()["snapshot_id"]
return json.dumps({
"snapshot_id": snapshot_id,
"status": "Historical data retrieved"
})
llm = ChatOpenAI(model="gpt-4o")
knowledge_supply_chain_agent = create_react_agent(
llm,
tools=[discover_sources, fetch_full_content,
get_historical_pricing_data],
state_modifier="""You are a competitive intelligence analyst
with access to live web discovery, full page content,
and historical pricing datasets.
For pricing analysis:
1. Discover broadly to map the landscape
2. Fetch the actual pricing page – do not rely on snippets
3. Compare against historical baseline data
4. Identify whether this is a structural shift or temporary
5. Provide a structured assessment with source citations."""
)
result_2 = knowledge_supply_chain_agent.invoke({
"messages": [{
"role": "user",
"content": "Analyze recent pricing changes for [Competitor]. "
"Has their pricing strategy shifted? "
"What does this mean for our positioning?"
}]
})
同じクエリ。同じLLM。異なるデータインフラ。注:このテストでは過去のデータセットを設定しなかったため、ツール3(過去のベースライン)は使用されませんでした。本番デプロイメントでは、過去の比較が3番目の証拠レイヤーを追加します。
AGENT 2 OUTPUT (Knowledge Supply Chain):
Sources discovered: 10 (relevance-ranked, 7 seconds)
Top source: "What are the recent changes to Notion AI
pricing?" (relevance: 0.78) – a source the SERP did not
return
Also found: Reddit threads, independent pricing analyses
Full page read: Notion pricing page (27,028 chars, Markdown)
Extracted directly from https://www.notion.com/pricing
via Web Unlocker
Finding: Notion's pricing plans are Free ($0), Plus
($8-10/user/month), Business ($15-20/user/month). The AI
add-on has been eliminated. AI features are now built into
higher-tier plans. This is a structural pricing change, not
a temporary promotion.
Confidence: High – pricing extracted directly from the
actual Notion pricing page.
違いはインテリジェンスではなく、証拠にある
両エージェントは同じクエリを同じLLMで実行しました。エージェント1はスニペットから合理的な分析を返しました。エージェント2は実際のページから抽出された具体的な価格と、SERPが見つけなかったソースからの構造的な洞察(AIアドオンの廃止)を返しました。
両エージェントは同等の推論能力を持っています。変わったのは証拠です。エージェント1には10個のスニペットがありました。エージェント2には10件の関連性ランク付きソース、27,028文字の実際のページコンテンツ、SERPトップ10に現れなかった最近の価格変更に関するディスカバリーソースがありました。
エージェント2は実行に時間がかかります(単一のSERP呼び出しに対してディスカバリー+抽出)。サミットのパネリストが述べたように:エージェントにとって、1秒のレイテンシ制約はもはや適用されません。エージェントがチャット応答を提供しているか、夜通しのリサーチを実行しているかによって、100ミリ秒か100秒かのどちらかです。
このテストでは2回のツール呼び出し。本番デプロイメントでは3回(過去のベースラインのためのデータセットを追加)。それが実際の知識サプライチェーンです。
Discover APIは幅をカバーします。抽出は深さを処理します。データセットは両方を評価するための過去のコンテキストを追加します。
自分で実行してみましょう。両エージェントはBright DataのAPIキーとLangChain互換のLLMで完全に機能します。パターンをクローンして、実際の競合他社に向けて出力を比較してください。完全なウォークスルーについては、エージェント型RAGシステムの構築方法をご覧ください。
サーチAPIか知識サプライチェーンか?意思決定フレームワーク
すべてのエージェントが知識サプライチェーンを必要とするわけではありません。エンタープライズワークロード向けのTavilyの代替を探している場合、正しい答えは技術ではなくリスクによって異なります。
| 状況 | 適切なツール |
|---|---|
| レイテンシがKPIであるインタラクティブチャットUX | サーチAPI(Tavily、またはBright Data Fast SERP) |
| RAGプロトタイプ、内部デモ、ハッカソン | サーチAPI – 高速、安価、低摩擦 |
| 本番エージェント:競合インテリジェンス、価格、リスク | Bright Data Discover API+データセット |
| フルページコンテンツを含む関連性ランク付き結果が必要 | Bright Data Discover API(オプションのインラインコンテンツを含む最大20件の結果) |
| 特定のページの現在の状態を検証する必要がある | Bright Data Web Unlocker / フルコンテンツを含むSERP API |
| 過去のベースラインまたは評価データセットが必要 | Bright Dataデータセット |
| 1,000以上の並行リサーチタスクを実行 | Bright Data – スループットはレート制限ゲートではなくワークロードに合わせてスケール |
a16zは、ほとんどのサーチAPIプロバイダーが同様のコア機能を提供していることを発見しました(彼らが「制限された初期製品差別化」と呼んだもの)、主に速度と価格で競合しています(「Search Wars: Episode 2」、2025年)。Bright Dataはリアルタイムのサブ秒Fast SERPアクセスとSERPアクセスの両方をカバーします。インデックスベースのサーチAPIは最速の応答を提供しますが、事前構築されたコーパスから取得します。
本番エージェントはどちらか一方ではなく、ライブアクセスと速度の両方を必要とすることが増えています。実際には、多くのチームは単一エージェント内で意図によってルーティングします:低レイテンシのツール呼び出しにはFast SERP、エージェントがディープリサーチループに入るときはDiscover APIを使用します。
エージェントが決定しているものと一致するインフラを選択してください。
知識サプライチェーンスタック:参照
サーチAPIを超える準備ができているチームのために、構成要素を示します(完全なAIエージェントテックスタックガイドも参照):
| 構成要素 | 最適な用途 | 主要な機能 |
|---|---|---|
| Discover API(ベータ) | ディープリサーチ、RAGグラウンディング、デューデリジェンス | 1回の呼び出しで最大20件の結果、オプションのインラインフルページコンテンツ、意図+関連性ランキング |
| Fast SERP / SERP API | 監視、チャットUX、低レイテンシワークフロー | サブ秒の構造化SERP出力、地域+言語ターゲティング |
| Web Unlocker | アンチボット保護の背後にある特定ページの取得 | 99.95%の成功率、組み込みCAPTCHA解決、Markdown出力 |
| データセット | バックフィル、ベースライン、再現可能な評価 | トピック構造化された過去データ、JSON/CSV/Parquet |
これらは競合する製品ではありません。レイヤーです。ディスカバリーがソースを見つけます。抽出がそれらを読みます。データセットが何が変わったかを評価するための履歴を提供します。
AIエージェントチームへの意味
ウェブは読みやすくなるのではなく、より難しくなっています。Cloudflareは5ヶ月間で4,160億件のAIボットリクエストをブロックしました(WIRED、2025年)。ほとんどのウェブスクレイピングの専門家が年々増加するアンチボット保護を報告しています。
しかし、1年も経たないうちに、エージェント型検索スタートアップへの開示された資金調達額は3億2,300万ドルを超えました(そのレポートに記載された資金調達ラウンドから計算)。AIエージェント向けの「サーチAPI」と本番グレードのウェブデータインフラのギャップは縮まっていません。
市場認識型エージェントのためのBright Dataスタック:
- Discover:意図ランク付きディスカバリーとオプションのフルコンテンツ
- Fast SERP:低レイテンシ監視とインタラクティブエクスペリエンス
- データセット:バックフィル、ベースライン、より高速な収集
インタラクティブデモを試したり、エージェントドキュメントを読んだり、すべての製品で無料トライアルクレジットを使って構築を始めましょう。
よくある質問
AIエージェント向けサーチAPIとは何ですか?
エージェントが検索結果(ランク付きURL、スニペット、場合によってはページサマリー)を取得するために呼び出すAPIです。Tavilyはよく知られた例の一つです。速度が深さよりも重要なチャットボット、RAGデモ、プロトタイプでうまく機能します。しかし、結果はライブウェブではなくキャッシュされたインデックスから来ます。
AIエージェントにサーチAPI以上のものが必要な理由は何ですか?
サーチAPIはキャッシュされたインデックスからスニペットを返します。ビジネス上の意思決定を行うエージェントには、サマリーではなく実際のページコンテンツが必要です。また、何かが変わったかどうかを検出するための過去データと、レート制限に達することなく数千の並行リサーチタスクを実行するのに十分なスループットも必要です。
AIエージェントはウェブデータをどのように使用しますか?
エージェントは一度検索して止まりません。タスク中に何を検索するか、何ページ読むか、見つけたものに基づいて再度検索するかどうかを決定します。価格エージェントは検索し、実際のページを取得し、先月と比較し、関連ニュースを検索するかもしれません。ウェブはいくつかのツールのうちの一つです。
Bright DataとTavilyの費用比較は?
Bright DataのSERP APIは従量課金制で1,000リクエストあたり$1.50から始まります。Discover APIとデータセットは使用量に基づいて別途価格設定されています。Tavilyは1クレジットあたり$0.008(1,000シングルクレジットリクエストあたり$8)から始まります。すべてのBright Data製品には最低コミットメントなしの無料トライアルクレジットが含まれています。
Bright DataはTavilyの良い代替品ですか?
ワークロードによって異なります。フルページコンテンツ、意図ランク付き結果、過去のベースラインを必要とする本番エージェントには、Bright DataがTavilyがカバーしていないものをカバーします。レイテンシが優先事項であるプロトタイプとチャットUXには、Tavilyは依然として強力なオプションです。どちらも異なる問題に対する優れたツールです。