Bright Data によるオープンソース AI 可視化トラッカー

かつて顧客がGoogleで検索していた質問に、今やAIモデルが回答しています。もしあなたのブランドがそれらの回答に含まれていないなら、あなたは事実上「見えない存在」であり、おそらくそのことに気づいてさえいないでしょう。私はまさにそれを追跡するための、無料のオープンソースツールを開発しました。そこで私が学んだこと、そしてなぜBright DataのスクレイパーAPIだけがそれを実現できる唯一のインフラだったのかについてお話しします。

概要：

GEO/AEO Trackerは、6つのAIモデルを同時に追跡する無料のオープンソースAI可視化ダッシュボードです。
Bright DataのLLMスクレイパーを使用して、ChatGPT、Gemini、Perplexity、Grok、Copilot、Google AI Modeにクエリを送信します。
Bright Dataは、単一のAPIパターンを介して、モデルごとの構造化された出力（引用、出典、回答テキスト）を提供します。
エンタープライズ向けの有料ツールは月額200～600ドルかかり、データがロックされますが、このスタックではクエリ1回あたり数セント未満のコストで、すべてのデータをローカルに保持できます。
SRO Pipelineは、Bright DataのSERP API、Web Unlocker、LLMスクレイパーを1つのエンドツーエンドワークフローで活用します。
すべてのデータはお客様の環境内に留まります。ベンダーロックインも、外部データベースも不要です。

まだ誰も完全には解決できていないGEO問題

2026年初頭時点で、ChatGPTの週間アクティブユーザー数は9億人を突破しました。Google AI Overviewsは現在、全検索の約16%に表示されています。また、AI検索エンジンからのトラフィックは、従来のオーガニック訪問者よりも23倍高いコンバージョン率を示しています。Ahrefsは自社のデータからこれを裏付け、AIソースからのトラフィックの0.5%が全登録者の12.1%を占めていることを明らかにしました。

マッキンゼーは、2028年までに米国で7,500億ドルの収益がAI搭載検索を通じて生み出されると予測している。これは単なる将来像の予測ではない。誰かがChatGPTに「どのCRMを使うべきか？」と尋ねたり、Perplexityに「最高のプロジェクト管理ソフトウェアはどれか？」と尋ねたりするたびに、クエリごとに、それはすでに現実となっているのだ。

測定できないものは最適化できません。そして、AIによる可視性を測定することは、これまでコストがかかりすぎたり、範囲が限定的だったり、あるいはその両方であったりしました。

私が開発したツール：GEO/AEO Trackerを60秒で解説

GEO/AEO Trackerは、オープンソースでローカル優先のAI可視性インテリジェンスダッシュボードです。APIキーなしで今すぐライブデモをお試しいただけます。

ChatGPT、Perplexity、Gemini、Grok、Google AI Mode、Microsoft Copilot上で、ブランドに関する言及を同時に並行して追跡します。すべてのデータはIndexedDBを介してブラウザ内にローカル保存されるため、外部データベースもベンダーロックインも一切ありません。

13の機能、6つのAIモデル、ベンダーロックインゼロ

私がこのツールを開発したのは、常に同じ問題に直面していたからです。評価したどのツールも、高すぎるか、特定のエコシステムに縛られるか、あるいは対応モデルが不十分でした。そこで、自分が使いたいと思うツールを自作したのです。

実世界のブランドトラッキングにおいて最も重要な機能：

Prompt Hubは、6つのモデルすべてに対して任意のプロンプトを同時に実行します。競合クエリを追跡するプロダクトマーケティングチームにとって、これは6つの実験を個別に実行するのと、1つの実験を実行するのとでは天と地ほどの差があります。プロンプトライブラリ全体の管理、動的置換のための{brand}インジェクション、バッチ実行のトリガーを、すべて並行して行うことができます。

Visibility Analyticsは、ブランド言及率、回答内での順位、引用頻度、および経時的なセンチメントに基づいて0～100のスコアを算出します。これは、CMOが20枚ものスライドを使った説明なしに上層部に報告できるKPIです。また、CSV形式でのエクスポートも可能です。

「Citation Opportunities」は、私が最も誇りに思っている機能です。競合他社が引用されているURLのうち、自社が掲載されていない箇所を特定します。これは、コンテンツのギャップとリンク構築のインテリジェンスを直接提供するもので、自動的に配信されます。

SRO分析（詳細は後述）は、特定のページがAI検索結果に対してどの程度最適化されているかを0～100点で評価する6段階のパイプラインであり、優先順位付けされた実行可能な推奨事項を提供します。単一のワークフロー内で複数のBright Data製品を活用しています。

Drift Alertsは、可視性スコアに大幅な変化があった際に自動的に発動します。AI回答におけるブランド評判の変化は、急速に悪化する可能性があります。数日で把握できるのと、月次レビューで把握するのとでは、その重要性が全く異なります。

なぜBright Dataだけが実用的な基盤となったのか

これは開発ストーリーの中で多くの人が飛ばしてしまう部分ですが、このツールが毎週クラッシュすることなく、本番環境レベルの品質で動作している最大の理由です。

誰も語らないスクレイピングの課題

ChatGPT、Perplexity、Gemini、Grok、Google AI Mode、Copilotはすべて：

完全にJavaScriptでレンダリングされています。単純なHTTPリクエストでは有用な情報は得られません。
ボット対策が徹底されている。自動トラフィックのパターンを検知し、拒否する。ブラウザフィンガープリント、CAPTCHA、行動分析といった最も一般的なスクレイピング対策が、これらのプラットフォームではすべて同時に機能している。
構造的に互いに異なる。各プラットフォームは異なる形式でデータを返す。Perplexityはインラインソース付きのマークダウンを使用する。Geminiは引用情報を独立した構造化された配列として返す。Grokにはanswer_text_markdownに加え、response_rawフィールドがある。
地理的位置に依存します。同じプロンプトでも、リクエストの発信元と見なされる国によって、異なる回答や異なる引用元が返されることがあります。

これら6つすべてに対してスクレイパーをゼロから構築・維持するには、レジデンシャルプロキシ、CAPTCHAの解決、セッション管理、モデル間のレスポンス正規化、非同期レスポンスのポーリング、そしてプラットフォームが構造を更新するたびに継続的なメンテナンスが必要となります。これは、追跡ロジックを1行も記述する前に、数ヶ月に及ぶエンジニアリング作業を要するものです。

Bright Dataは、これらすべてをモデルごとに1回のAPI呼び出しに集約します。

6つのスクレイパー、1つのAPIキー：コードでの動作原理

brightdata-スクレイパー.tsにおける中核となる統合処理は、6つのプロバイダーすべてで共通する、シンプルで繰り返し可能なパターンに従っています：

// ステップ1: Bright DataのデータセットエンドポイントへのPOST
const scrapeResponse = await fetch(
  `https://api.brightdata.com/datasets/v3/scrape?dataset_id=${datasetId}&format=json`,
  {
    method: "POST",
    headers: { Authorization: `Bearer ${BRIGHT_DATA_KEY}`, "Content-Type": "application/json" },
    body: JSON.stringify({
      input: [{ url: providerBaseUrl[provider], prompt: request.prompt, index: 1 }]
    }),
  }
);

// ステップ 2: 非同期レスポンスの処理 — スナップショットの準備完了をポーリング
if (scrapeResponse.status === 202) {
  const { snapshot_id } = await scrapeResponse.json();
  await monitorUntilReady(snapshot_id); // 2 秒ごとに /progress/{id} をポーリング
  payload = await downloadSnapshot(snapshot_id); // GET /snapshot/{id}?format=json
}

// ステップ3: 結果の正規化
const answer = normalizeAnswer(record); // 6つのモデル形式すべてに対応
const sources = extractSourcesFromAnswer(answer); // テキストと構造化された引用を統合

どのモデルもこの同じパターンを使用します。変更されるのはdataset_idのみであり、プロバイダーごとに1つの環境変数（BRIGHT_DATA_DATASET_CHATGPT、BRIGHT_DATA_DATASET_PERPLEXITYなど）が設定されます。

これがアーキテクチャです：1つの統合パターン、6つのモデル、毎回一貫した構造化された出力。

構造化された出力の実際の様子

各Bright Dataスクレイパーは、モデル固有のフィールドを返します。normalizeAnswer()関数はモデル間のフォーマットの違いを処理し、アプリケーションの他の部分が一貫したインターフェースを認識できるようにします：

モデル	返される主要フィールド
ChatGPT	`answer_text`,`links_attached`,`citations`,`recommendations`,`country`
Perplexity	`answer_text_markdown`,`sources`,`source_html`,`is_shopping_data`
Gemini	`answer_text`,`citations`,`links_attached`,`index`,`country`
Grok	`answer_text`,`answer_text_markdown`,`citations`,`response_raw`
Google AIモード	`回答テキスト`、`引用`、`添付リンク`、`インデックス`、`国`
Copilot	`answer_text_markdown`,`sources`,`answer_section_html`,`index`

正規化レイヤーはまずanswer_textをチェックし、次にanswer_text_markdown、その次にresponse_rawへとフォールバックし、その後、生のレコードに対して深い再帰的抽出を行います。Bright Dataがプラットフォーム固有の複雑さを処理し、アプリケーションがクロスプラットフォームの正規化を処理します。関心の明確な分離です。

SROパイプライン：1つの機能に凝縮されたBright Dataのフルスタック

SRO分析はトラッカー内で最も技術的に高度な機能であり、Bright Dataのインフラがスケールにおいて何を実現できるかを最も明確に示すものです。

そのコンセプトは、特定のページがAI検索結果に対してどれほど最適化されているかを0から100のスコアで評価し、具体的な改善提案を行うことです。そのスコアを算出する6段階のパイプラインは以下の通りです：

ステージ1：Gemini Grounding。Google Gemini APIを使用して、トピック、権威性のシグナル、コンテンツ構造など、AIシステムがページをどのように認識しているかを把握します。

ステージ2：クロスプラットフォーム引用。 scrapeAllPlatforms()を通じて6つのBright Data LLMスクレイパーをすべて並列で呼び出し、ChatGPT、Perplexity、Gemini、Grok、Google AI Mode、Copilotで関連キーワードを検索した際に、対象のURLまたはドメインが引用されているかを確認します。

ステージ3：SERP分析。BrightDataのSERP APIを使用して、キーワードのオーガニック検索順位データを取得します。ページがオーガニック検索で1位にランクインしているにもかかわらず、どのAIの回答にも引用されていない場合、それは明らかにすべきGEOギャップとなります。

ステージ4：ページスクレイピング。BrightDataのWeb Unlockerを使用して実際のページコンテンツを取得し、その構造、深さ、BLUF密度、見出し階層、スキーママークアップを分析します。ペイウォールやボットブロックはありません。

ステージ5：サイトコンテキスト。再びBright DataのWeb Unlockerを使用してホームページを取得し、AIシステムが情報源を引用するかどうかを判断する際に使用するブランド権威のシグナルを抽出します。

ステージ6：LLM分析。上記すべてを統合し、最終的なSROスコアと優先順位付けされた推奨リストを生成します。具体的には、何を最初に修正すべきか、どのようなコンテンツのギャップが存在するか、AIによる引用において競合他社がどこで優位に立っているかといった情報を提供します。

1つの機能。6つのBright Data製品との連携。その結果、企業チームがゼロから構築するには数ヶ月を要する監査ワークフローが実現します。これこそが本サービスの真価です。

エンタープライズでの活用事例：企業が実際にこれを使って何をしているか

このトラッカーはオープンソースですが、その基盤となるインフラ（Bright DataのLLMスクレイパーAPI）こそが、真のエンタープライズワークロードに対応するスケーラビリティを実現しています。実際の運用例をご紹介します。

大規模なブランド評判モニタリング

中堅SaaS企業のCMOが把握すべきことは、ユーザーがChatGPTに「どの[製品カテゴリ]を信頼すべきか？」と尋ねた際、どのような回答が返ってくるかということです。その回答は正確か？感情は肯定的か？そもそもブランド名は言及されているか？

追跡ツールがなければ、見込み客から「AIに尋ねたら競合他社を推奨された」と報告を受ける3ヶ月後になって初めて事態に気づくことになります。トラッカーを使えば、評判に影響するプロンプトを毎週バッチ処理でき、感情が変化した際にドリフトアラートが発動します。さらに、「Citation Opportunities」タブでは、AIの回答を変えるためにどのようなコンテンツを作成すべきか、あるいはどのようなバックリンクを獲得すべきかが正確に示されます。さらに深く掘り下げたいチーム向けに、Bright DataのSDKを使用した自動化されたブランド評判モニタリングワークフローの構築に関する詳細な手順ガイドをご用意しています。

営業チームのための競合情報

セールス・イネーブルメントやプロダクトマーケティングチームは、特定の課題に直面しています。本来自社が回答すべきクエリに対して、競合他社がAIの回答に表示されてしまうのです。どのクエリで、どのモデルが、なぜそうなるのか、またどう対処すべきか、彼らは把握できていません。

「競合他社バトルカード」タブでは、AIを活用して自社ブランドと任意の競合他社を並べて比較表示します。引用ギャップ分析により、競合他社が引用されているのに自社が引用されていないURLを正確に特定できます。これはかつて、調査会社が年間5万ドルを請求して作成していたような情報です。

マルチブランドまたは代理店チームのためのGEO戦略

12のブランドを管理する代理店にとって、AIによる可視性追跡にブランドあたり月額500ドルを支払う余裕はありません。すぐに採算が合わなくなります。

本トラッカーのマルチワークスペース対応とBYOK（Bring Your Own Key）モデルにより、Bright Data APIの使用分のみを支払うことになります。1,000件あたり1.50ドルの従量課金制であれば、10のプロンプトと6つのモデルを用いた週次トラッキングバッチを実行しても、ブランドあたり数セントのコストしかかかりません。10ブランドをトラッキングしても、SaaSのライセンス1つ分のコストを下回ります。

SEOクライアント向けテクニカルGEO監査

SEOクライアントから「GEO最適化はできているか？」と尋ねられた際、ツールなしでは曖昧な回答しかできません。SRO分析はそれを変えます。ページごとに0～100のスコアと具体的な優先順位リスト（スキーママークアップの修正、冒頭段落のBLUF密度の向上、これら3つのドメインからの引用獲得など）を提供します。これは、「AI最適化が重要だ」と言うだけの監査と、「今週やるべき5つのこと」を提示する監査との違いです。このようなマルチエージェントGEO最適化ワークフローをエンドツーエンドで構築する方法を知りたい場合は、CrewAIによるGEOおよびSEOコンテンツ最適化ガイドでその詳細を確認できます。

データ主権の要件

企業の調達部門や法務部門には正当な懸念があります。それは、ブランド追跡データをサードパーティのSaaSベンダーのサーバーに送信できないという点です。この制約により、エンタープライズレベルではほぼすべての商用GEOツールの導入が阻まれています。

トラッカーの「ローカルファースト」アーキテクチャ（IndexedDB + localStorage）により、Bright DataはAPI経由で構造化データを提供し、その行き先は企業が決定します。Bright Data自体はSOC 2 Type II、ISO 27001、GDPR、CCPAに準拠しているため、企業のセキュリティ審査を通過します。データフローはクリーンです：構造化されたレスポンスが入力され、ローカルストレージに保存され、仲介者は存在しません。

同様のシステムを構築したい場合の意味

このトラッカーは、Bright DataのLLMスクレイパーAPIの1つの応用例です。それが稼働するインフラは汎用的なものです。

AIモニタリングダッシュボード、ブランドインテリジェンスツール、競合情報製品、あるいはAIモデルを大規模にクエリし、構造化データを取得する必要があるあらゆるアプリケーションを構築する場合、その構成要素は同じです。これらのユースケースで利用可能なソリューションの概要については、主要なSERP APIおよびウェブ検索APIの比較記事が状況をよく網羅しています。195カ国にまたがる1億5,000万以上のレジデンシャルIPアドレスからなるBright Dataのネットワークにより、AIプラットフォームは実際のユーザートラフィックを認識します。 99.99%の稼働率により、火曜日の朝に自動化パイプラインが静かに停止してしまうことはありません。最大5,000件のURLに対する一括リクエスト処理機能により、単一の操作でエンタープライズ規模のバッチトラッキングを実行できます。S3、GCS、Snowflake、Azure、SFTPへの出力配信により、データは既存のスタックに直接取り込むことができます。

これらのスクレイパーを完全な自律型パイプラインとして統合するための最適なAIエージェントフレームワークも検討中なら、それは自然な次のステップです。主要なフレームワークはすべてBright Dataと直接連携可能です。

問題は、AIの可視性を追跡すべきかどうかではありません。見つけた情報に基づいて行動を起こすためのインフラを、どれだけ迅速に整えられるかということです。

Bright DataのLLMスクレイパーを使い始める

GEO/AEO Trackerの独自インスタンスを実行したい場合は、リポジトリをクローンし、Bright DataのAPIキーを追加してください。10分以内に稼働開始できます：

git clone https://github.com/danishashko/geo-aeo-tracker.git
cd geo-aeo-tracker && npm install
# .env に BRIGHT_DATA_KEY と 6 つのデータセット ID を追加
npm run dev

6つのBright DataスクレイパーデータセットID（ChatGPTスクレイパーAPI、Perplexityスクレイパー、Geminiスクレイパー、Grokスクレイパー、Google AI Modeスクレイパー、Copilotスクレイパー用）は、アカウントを作成すればBright Dataスクレイパーマーケットプレイスから直接入手可能です。

エンタープライズ規模でカスタムソリューションを構築したい場合、LLMスクレイパーがインフラストラクチャ層となります。どちらの道も、Bright Dataの無料トライアルから始まります。

GitHubのオープンソースリポジトリを見る

お問い合わせ無料トライアル