クローラーインデックス
ウェブサイトによってブロックされるクローラーの大規模なサンプル。
71.6%
ウェブサイトの多くは、少なくとも部分的なdisallowコマンドを設定しています。
71.6%
ウェブサイトの多くは、少なくとも部分的なdisallowコマンドを設定しています。
| ユーザーエージェントを明示的にブロックしているウェブサイトの割合 | 明示的にブロックしているウェブサイトと * コマンドの使用率 | 会社名 | 目的 | ユーザーエージェント |
|---|---|---|---|---|
| 2.5% | 62.5% | Open AI | GPT | GPTBot |
| 2.1% | 62.5% | Common Crawl Foundation | Public Web Archive | CCBot |
| 1.6% | 62.5% | Bard/Gemini/PaLM/Bison | Google-Extended | |
| 0.6% | 62.2% | OpenAI | Chat GPT | chatgpt-user |
| 1.8% | 63.7% | Amazon | Alexa | amazonbot |
| 0.5% | 61.9% | Meta AI | LIaMA | FacebookBot |
| 0.5% | 64.9% | Brandwatch | Magpie Crawler | magpie-crawler |
| 1.8% | 64.9% | ByteDance | ByteDance LLM N/A | Bytespider |
| 0.5% | 61.8% | Anthropic | Claude | Anthropic-AI |
| 1.6% | 63.5% | Anthropic | Claude | claudebot |
| 0.3% | 62.5% | Anthropic | Claude | claude-web |
| 0.4% | 62.5% | Perplexity | Chatbot | perplexitybot |
| 0.3% | 62.0% | Cohere | Cohere Command | Cohere-AI |
| 1.3% | 62.8% | Apple | Appleの基盤モデル | Applebot-Extended |
| 0.3% | 64.7% | Apple | Siri | Applebot |
| 0.3% | 64.7% | Diffbot | トレーニングデータ | diffbot |
| 1.4% | 63.6% | Meta | All Meta AI | meta-externalagent |
| 0.2% | 64.6% | OpenAI | SearchGPT | oai-searchbot |
| 0.2% | 64.7% | Timpi | ウィルソン AI | timpibot |
| 0.1% | 64.7% | webz.io | webzio-extended | webzio-extended |
| 0.1% | 64.1% | Bard/Gemini/PaLM/Bison | googleother | |
| 0.01% | 65.0% | Perplexity | perplexity-AI | perplexity-ai |
| 0.1% | 64.7% | Meta | All Meta AI | meta-externalfetcher |
| ユーザーエージェントを明示的にブロックしているウェブサイトの割合 | 明示的にブロックしているウェブサイトと * コマンドの使用率 | 会社名 | 目的 | ユーザーエージェント |
|---|---|---|---|---|
| 20.5% | 83.5% | Open AI | Chat GPT | gptbot |
| 17.1% | 84.1% | Common Crawl Foundation | Public Web Archive | ccbot |
| 13.5% | 84.8% | Bard/Gemini/PaLM/Bison | google-extended | |
| 11.7% | 83.4% | Open AI | Chat GPT | chatgpt-user |
| 12.2% | 83.6% | Anthropic | Claude | anthropic-ai |
| 14.1% | 83.4% | Anthropic | Claude | claudebot |
| 10.2% | 83.8% | Anthropic | Claude | claude-web |
| 8.9% | 83.6% | Meta | LIaMA | facebookbot |
| 12.4% | 84.2% | ByteDance | ByteDance LLM N/A | bytespider |
| 11.8% | 83.4% | Perplexity | Chatbot | perplexitybot |
| 10.3% | 84.2% | Cohere | Cohere Command | cohere-ai |
| 8.9% | 84.4% | Apple.com | Appleの基盤モデル | applebot-extended |
| 4.9% | 86.1% | Brand Watch | Magpie Crawler | magpie-crawler |
| 7.3% | 83.7% | Amazon | Alexa | amazonbot |
| 3.3% | 85.1% | Apple | Siri | applebot |
| 1.8% | 85.5% | Bard/Gemini/PaLM/Bison | googleother | |
| 2.9% | 85.6% | Webz | webzio-extended | webzio-extended |
| 4.2% | 85.5% | Timpi | ウィルソン AI | timpibot |
| 1.4% | 86.4% | Perplexity | perplexity-AI | perplexity-ai |
| 4.8% | 85.9% | Meta | All Meta AI | meta-externalfetcher |
| 7.0% | 83.6% | Open AI | Search GPT | OAI-searchbot |
| 4.8% | 85.9% | Meta | All Meta AI | meta-externalagent |
方法論
Bright Dataは、数十億の主要ウェブサイトから世界で最も需要の高い公開ウェブデータをウェブスクレイピングしています。コンプライアンス製品「Bright Shield」を通じて、ウェブスクレイピング対象サイトのrobot.txtからユーザーエージェントに対する許可/拒否コマンドを収集しています。現在のサンプルサイト数は9,832,187件、収集済みユニークユーザーエージェントは約33,000件です。
研究チームは、対象ユーザーエージェントがサンプル内で明示的にブロックされる割合、および「(*)」コマンドでブロックされる全ユーザーエージェントを特定しました。さらに、全てのクローラーを拒否するウェブサイトの全体的な割合も追跡しています。各ユーザーエージェントは、企業名・用途・ブロック方法などの追加情報を含むリンクにより、可能な限り詳細に識別されています。
ユーザーエージェントに関するご意見は [email protected]までメールでお寄せください
最終更新日:2025年12月2日