評価と可観測性 – 重要な指標を測定する
ローンチウィーク最終日を迎えました。過去4日間で、本番環境向けAIエージェント構築のツールを提供してきました:
- 1日目:コンテキスト汚染を排除するツールグループ
- 2日目:精密な制御を実現するカスタムツール
- 3日目:効率最大化のためのトークン最適化
- 4日目:サイロを打破するエンタープライズ統合
本日はお客様から寄せられる最も多い要望の一つにお応えします:エージェントが期待通りに動作しているかどうかの確認方法とは?
今回リリースするのは:評価フレームワークと可観測性ダッシュボードです。
課題:エージェント動作の可視化
ECエージェントを構築し、適切なツールに範囲を限定し、トークン使用を最適化しました。次に必要なのは本番環境の可視性です:
- 実際に呼び出されているツールはどれか?
- ツールは正しく使用されているか?
- エージェントはどこで失敗しているのか?
- 実際の使用状況とコストは?
- 新しいツール設定は成功率にどう影響するか?
可視性がないと、目隠し状態で作業しているようなものです。測定できないものは最適化できません。
ツールグループを扱う場合、この点は特に重要です。グループ設定を「グループ=eコマース」からカスタムツール選択に切り替えた際、重要なワークフローを誤って壊していませんか?顧客から苦情が来るまで気づかないでしょう。
解決策:二層の可視性
当社は2つの補完システムで完全な可視化スタックを構築しました:
1. MCP評価フレームワーク(開発・テスト環境)
mcpjamで駆動される自動テストフレームワーク。本番環境導入前にエージェント動作を検証
2. 監視ダッシュボード(本番環境モニタリング)
Bright Dataのコントロールパネル上で動作するリアルタイム使用状況分析ダッシュボード。本番環境における全てのAPI呼び出しを追跡
各レイヤーを詳しく見ていきましょう。
レイヤー1: MCP評価フレームワーク
mcpjamとは?
mcpjamはModel Context Protocolサーバーの公式評価CLIです。「AIエージェントの統合テスト」と考えてください。
テストケースを自然言語クエリとして記述し、呼び出すべきツールを指定すると、mcpjamが自動的にエージェントをワークフローで実行します。
活用方法
初日にリリースした全てのツールグループ向けに包括的な評価スイートを構築済みです。新しいツール選択を設定する際、デプロイ前にこれらの評価を実行して動作確認が可能です。
プロジェクト構造
mcp-evals/
├── server-configs/ # ツールグループごとのサーバー接続設定
│ ├── server-config.ecommerce.json
│ ├── server-config.social.json
│ ├── server-config.business.json
│ ├── server-config.browser.json
│ └── ...
├── tool-groups.json/ # ツールグループごとのテストケース
│ ├── tool-groups.ecommerce.json
│ ├── tool-groups.social.json
│ ├── tool-groups.business.json
│ ├── tool-groups.browser.json
│ └── ...
└── llms.json # LLMプロバイダーAPIキー
各ツールグループには、エージェントが処理できるべき実世界のクエリを含む独自のテストスイートが用意されています。
例: Eコマース評価
mcp-evals/tool-groups.json/tool-groups.ecommerce.json より:
{
"title": "テスト Eコマース - Amazon商品検索",
"query": "Amazonでワイヤレスヘッドホンを検索し、レビュー付きのトップ商品を表示してください",
"runs": 1,
"model": "gpt-5.1-2025-11-13",
"provider": "openai",
"expectedToolCalls": ["web_data_amazon_product_search"],
"selectedServers": ["ecommerce-server"],
"advancedConfig": {
"instructions": "あなたはAmazonで商品を探すユーザーを支援するショッピングアシスタントです",
"temperature": 0.1,
"maxSteps": 5,
"toolChoice": "required"
}
}
このテストは以下を検証します:
- エージェントがユーザークエリを正しく解釈すること
- 正しいツール(
web_data_amazon_product_search)を呼び出す - 適切なパラメータ(商品キーワード、Amazon URL)を渡す
- 設定されたタイムアウト内に完了する
- 一貫性のある応答を返す
実行中の評価: クイックスタート
mcpjamのインストール:
npm install -g @mcpjam/cli
eコマースツールグループテストの実行:
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
期待される出力:
テストを実行中
1台のサーバーに接続: ecommerce-server
合計13個のツールを発見
2つのテストを実行中
テスト1: テストEコマース - Amazon製品検索
openai:gpt-5.1-2025-11-13を使用
実行 1/1
ユーザー: Amazonでワイヤレスヘッドホンを検索し、レビュー付きのトップ製品を表示してください
[tool-call] web_data_amazon_product_search
{
"keyword": "wireless headphones",
"url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
"content": [...]
}
アシスタント: 現在Amazonで人気のワイヤレスヘッドホンをいくつかご紹介します...
期待値: [web_data_amazon_product_search]
実績: [web_data_amazon_product_search]
PASS (23.8s)
トークン数 • 入力 20923 • 出力 1363 • 合計 22286
テスト対象
初日から全8ツールグループ向けに評価スイートを構築済み:
| ツールグループ | テストカバレッジ | 例示クエリ |
|---|---|---|
| eコマース | Amazon、Walmart、Best Buyでの商品検索 | 「iPhone 15の小売店別価格比較」 |
| ソーシャル | TikTokコンテンツ、Instagram投稿、Twitterトレンド | 「AIに関するトレンドのTikTok動画を検索」 |
| ビジネス | LinkedInプロフィール、Crunchbaseの資金調達データ、Googleマップの所在地 | 「Microsoft CEOのLinkedInプロフィールを検索」 |
| 研究 | GitHubリポジトリ、ロイターニュース、学術情報源 | 「1000スター以上のウェブスクレイピング用Pythonリポジトリを検索」 |
| 金融 | 株価データ、市場動向、金融ニュース | 「NVIDIAの最新の株価を取得する」 |
| アプリストア | iOS App Store、Google Playのレビューと評価 | 「iOSで高評価の瞑想アプリを探す」 |
| browser | スクレイピングブラウザ自動化ワークフロー | 「Amazonにアクセスして商品をカートに追加」 |
| 高度なスクレイピング | バッチ処理、カスタムスクレイピング | 「カスタムウェブサイトから商品データをスクレイピング」 |
各テストスイートには、その領域で最も一般的なエージェントワークフローをカバーする2~5つのコアテストケースが含まれています。
重要性
評価機能により以下が実現:
- 回帰テスト:設定変更のたびに評価を実行し、既存ワークフローが破損していないことを確認
- パフォーマンスベンチマーク:異なるLLMモデルにおけるトークン使用量とレイテンシを追跡
- ツール検証:ツール選択ロジックが正しく動作していることを確認
- ドキュメント化:テストケースはエージェントの実行可能な動作例として機能します
Day 1のツールグループ導入前は、groups=ecommerceから groups=ecommerce,socialへの切り替えがエージェント動作を破壊しないか体系的にテストする手段がありませんでした。現在は可能です。
レイヤー2: 可観測性ダッシュボード
リアルタイム運用監視
評価はデプロイ前のテストを担当しますが、可観測性ダッシュボードは本番環境での使用状況をリアルタイムで可視化します。
Bright Dataのコントロールパネルに新たに統合されたMCP使用状況パネルでは、MCPサーバー経由で行われたすべてのAPI呼び出しを追跡します。
表示内容
ダッシュボードには以下の項目を含む包括的な使用状況表が表示されます:
| 日付 | ツール | クライアント名 | URL | ステータス |
|---|---|---|---|---|
| 2025-11-26 14:32:15 | web_data_amazon_product | my-ecommerce-agent | https://amazon.com/… | 成功 |
| 2025-11-26 14:31:52 | search_engine | my-research-bot | N/A | 成功 |
| 2025-11-26 14:30:18 | web_data_linkedin_person_profile | リードジェネレーションエージェント | https://linkedin.com/in/… | 成功 |
| 2025-11-26 14:29:03 | scraping_browser_navigate | 自動化エージェント | https://example.com | 失敗 |
主要指標
1. ツール使用状況の内訳
最も頻繁に呼び出されているツールを確認:
web_data_amazon_product: 1,243 回呼び出し
search_engine: 892 回呼び出し
web_data_linkedin_person_profile: 634 回呼び出し
scrape_as_markdown: 421 回呼び出し
これにより、エージェントにとって最も価値のあるデータセットがわかります。未使用のツールグループに対して料金を支払っている場合、ここで確認できます。
2. クライアント識別
各エージェントインスタンスには、接続URLのclient_nameパラメータを介してクライアント名をタグ付けできます:
npx -y @brightdata/mcp
ダッシュボードはクライアントごとに使用状況をグループ化するため、エージェント/ワークフローごとのコストを追跡できます。
3. 成功率と失敗率
エージェントの信頼性を監視:
総リクエスト数: 3,190
成功: 3,102 (97.2%)
失敗: 88 (2.8%)
失敗したリクエストをクリックすると、エラーの詳細を確認し、問題をデバッグできます。
4. URL追跡
データセットツールの場合、ダッシュボードではアクセスされたURL/リソースが表示されます。これにより以下のことが可能になります:
- レート制限の問題を特定する(同一ドメインへのリクエスト過多)
- スクレイピング対象の特定製品/プロファイル/ページを追跡
- コンプライアンス監査(エージェントが制限サイトにアクセスしていないことを確認)
アクセス方法
- Bright Data コントロールパネルにログイン
- サイドバーの新セクション「MCP使用状況」に移動
- すべてのMCP接続のリアルタイム使用状況データを表示
フィルター:
- 日付範囲(過去24時間、7日間、30日間、カスタム)
- ツール名(特定のツールでフィルタリング)
- クライアント名(エージェントインスタンスでフィルタリング)
- ステータス(成功/失敗)
エクスポート:
詳細分析やBIツール連携用に、使用状況をCSV形式でダウンロード。
統合ワークフロー:開発環境 → 本番環境
2つのシステムの連携方法:
フェーズ1: 開発 (デプロイ前)
- Day
1のfeaturenpx -y@brightdata/mcpを使用してツールグループを設定 - ツール
選定を検証するため評価を実行mcpjamevals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json - 結果を確認:全テストが合格していることを確認
- トークン使用量は予算内
- 正しいツールが呼び出されている
- 応答が正確である
- 反復:テストが失敗した場合、ツール選択またはシステムプロンプトを調整
フェーズ2: 本番環境 (デプロイ後)
- クライアント名
タグ付きエージェントをデプロイnpx-y @brightdata/mcp - 監視ダッシュボード:リアルタイム使用状況を確認
- 成功率は評価結果と一致しているか?
- 予期しないツールが呼び出されていないか?
- レート制限や認証の問題は発生していないか?
- 傾向分析:経時的に以下の点を確認:
- 使用量の急増(スケールが必要?)
- 障害パターンの変化(ツールの劣化?)
- コスト異常(トークン使用の最適化)
- 最適化:ダッシュボードの知見を活用しツール選択を精緻化
- 未使用ツールの削除(トークンコスト削減)
- 不足ツールを追加(成功率向上)
- レート制限を調整(スロットリング回避)
- 評価の再実行:設定変更後は必ず評価を再実行し、後退がないことを確認
パフォーマンス統計:ローンチ週のまとめ
まとめましょう。5日間の累積的な影響は以下の通りです:
1日目:ツールグループ
影響:システムプロンプトトークンが60%削減
例:全スイート(200以上のツール)→ 単一グループ(25ツール)
トークン節約量:リクエストあたり約8,000トークン(システムプロンプト)
2日目:カスタムツール
影響:4つの特定ツールを選択した場合、フルスイートと比較して85%削減
例:フルスイート(200以上のツール)→ カスタム(4ツール)
トークン節約量:リクエストあたり約9,500トークン(システムプロンプト時)
3日目:トークン最適化
効果:ツール応答トークンを30~60%削減
例:単一ワークフロー内でのウェブスクレイピング+データセットツール
トークン節約量:リクエストあたり約10,250トークン(ツール出力)
複合効果:Eコマースエージェントワークフロー
シナリオ:「100ドル以下のAmazonヘッドホン上位5製品を検索し、レビューを要約する」
| 設定 | システムプロンプト | ツール出力 | 総トークン数 | リクエストあたりのコスト |
|---|---|---|---|---|
| フルスイート(最適化なし) | 15,000 | 22,500 | 37,500 | 0.45ドル |
| + ツールグループ | 6,000 | 22,500 | 28,500 | 0.34ドル |
| + カスタムツール | 2,250 | 22,500 | 24,750 | 0.30ドル |
| + トークン最適化 | 2,250 | 12,250 | 14,500 | 0.17ドル |
総削減率:トークン61.3%削減、コスト62.2%削減
1,000リクエスト/日では、1日あたり280ドル、年間102, 200ドルの節約になります。
4日目:エンタープライズ統合
効果:カスタムETLのオーバーヘッドを排除
時間節約:数週間のエンジニアリング作業 → 数分の設定作業
保守:ゼロ(Bright Dataが対応)
5日目:評価+可観測性
影響: 予防的な品質管理と本番環境の可視化
障害削減:成功率10-15%向上(早期問題検出による)
コスト回避:本番環境移行前の回帰検出(数百件の失敗リクエストを防止)
今すぐお試しください:今日から始めましょう
ステップ1: 初回評価を実行
# mcpjamのインストール
npm install -g @mcpjam/cli
# Web MCPリポジトリのクローン
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse
# mcp-evals/llms.jsonでAPIキーを設定
# サーバー設定ファイルでBright Dataトークンを設定
# eコマース評価を実行
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
ステップ2: 監視ダッシュボードにアクセス
- Bright Dataにサインアップ
- コントロールパネルで「MCP Usage」に移動
- エージェントをデプロイし、リアルタイム使用状況データの表示を確認
ステップ3: 反復する
設定テストには評価関数を使用。本番環境監視にはダッシュボードを活用。繰り返し実施。
リソース
MCP 評価ツール:
- mcpjam GitHub — 公式評価CLI
- Model Context Protocol — 公式MCP仕様
可観測性ダッシュボード:
- Bright Data コントロールパネル — 使用状況ダッシュボードへのアクセス
- APIドキュメント — 完全なAPIリファレンス
Web MCPサーバー:
- GitHubリポジトリ — オープンソースのサーバーコード
- NPMパッケージ — npm経由でインストール
ローンチウィークのまとめ:
- 1日目: ツールグループ— コンテキスト汚染の排除
- 2日目: カスタムツール— 精密なツール選択
- 3日目: トークン最適化— 効率を最大化
- 4日目: エンタープライズ統合— サイロ化を解消
- 5日目:評価と可観測性 — 重要な指標を測定する(現在ここ)
ローンチウィーク:最終メッセージ
5日間。5つの主要リリース。ひとつの使命:AIエージェントを本番環境対応にする。
私たちは、コンテキスト汚染がエージェントワークフローにおける最大のボトルネックであるという洞察から始めました。コンテキストの範囲を限定するツールグループを提供しました。
次に、グループ化すら不十分だと気づきました。外科的精度を実現するカスタムツールを提供しました。
次に、出力側の課題であるトークン肥大化レスポンスに取り組みました。Strip-Markdownによるマークダウン除去と、Parsed Lightによるインテリジェントなペイロードクリーニングを統合しました。
その後、Bright Dataを企業が実際に使用するプラットフォーム(Google ADK、IBM watsonx、Databricks、Snowflake)に導入しました。
そして本日、評価と可観測性でループを閉じました。測定できないものは改善できないからです。
これが本番環境向けAIエージェントのフルスタックです:
- ツールグループ → コンテキスト汚染の削減
- カスタムツール → 精度最大化
- トークン最適化 → コスト最小化
- エンタープライズ統合 → どこでもデプロイ
- 評価+可観測性 → 品質維持
感謝
今週ご支援いただいた皆様へ:感謝申し上げます。
次世代AIエージェントを開発中の開発者の皆様へ:皆様が創り出すものを楽しみにしています。
大規模にAIを展開する企業の方々へ:私たちはそれを確実に実現します。
そしてMCPを実現したオープンソースコミュニティの皆様へ:これは始まりに過ぎません。
共にAIの未来を築きましょう。