クローラーインデックス

ウェブサイトによってブロックされるクローラーの大規模なサンプル。

71.6%

ウェブサイトの多くは、少なくとも部分的なdisallowコマンドを設定しています。

71.6%

ウェブサイトの多くは、少なくとも部分的なdisallowコマンドを設定しています。

ユーザーエージェントを明示的にブロックしているウェブサイトの割合 明示的にブロックしているウェブサイトと * コマンドの使用率 会社名 目的 ユーザーエージェント
2.5%62.5%Open AIGPTGPTBot
2.1%62.5%Common Crawl FoundationPublic Web ArchiveCCBot
1.6%62.5%GoogleBard/Gemini/PaLM/BisonGoogle-Extended
0.6%62.2%OpenAIChat GPTchatgpt-user
1.8%63.7%AmazonAlexaamazonbot
0.5%61.9%Meta AILIaMAFacebookBot
0.5%64.9%BrandwatchMagpie Crawlermagpie-crawler
1.8%64.9%ByteDanceByteDance LLM N/ABytespider
0.5%61.8%AnthropicClaudeAnthropic-AI
1.6%63.5%AnthropicClaudeclaudebot
0.3%62.5%AnthropicClaudeclaude-web
0.4%62.5%PerplexityChatbotperplexitybot
0.3%62.0%CohereCohere CommandCohere-AI
1.3%62.8%AppleAppleの基盤モデルApplebot-Extended
0.3%64.7%AppleSiriApplebot
0.3%64.7%Diffbotトレーニングデータdiffbot
1.4%63.6%MetaAll Meta AImeta-externalagent
0.2%64.6%OpenAISearchGPToai-searchbot
0.2%64.7%Timpiウィルソン AItimpibot
0.1%64.7%webz.iowebzio-extendedwebzio-extended
0.1%64.1%GoogleBard/Gemini/PaLM/Bisongoogleother
0.01%65.0%Perplexityperplexity-AIperplexity-ai
0.1%64.7%MetaAll Meta AImeta-externalfetcher
ユーザーエージェントを明示的にブロックしているウェブサイトの割合 明示的にブロックしているウェブサイトと * コマンドの使用率 会社名 目的 ユーザーエージェント
20.5%83.5%Open AIChat GPTgptbot
17.1%84.1%Common Crawl FoundationPublic Web Archiveccbot
13.5%84.8%GoogleBard/Gemini/PaLM/Bisongoogle-extended
11.7%83.4%Open AIChat GPTchatgpt-user
12.2%83.6%AnthropicClaudeanthropic-ai
14.1%83.4%AnthropicClaudeclaudebot
10.2%83.8%AnthropicClaudeclaude-web
8.9%83.6%MetaLIaMAfacebookbot
12.4%84.2%ByteDanceByteDance LLM N/Abytespider
11.8%83.4%PerplexityChatbotperplexitybot
10.3%84.2%CohereCohere Commandcohere-ai
8.9%84.4%Apple.comAppleの基盤モデルapplebot-extended
4.9%86.1%Brand WatchMagpie Crawlermagpie-crawler
7.3%83.7%AmazonAlexaamazonbot
3.3%85.1%AppleSiriapplebot
1.8%85.5%GoogleBard/Gemini/PaLM/Bisongoogleother
2.9%85.6%Webzwebzio-extendedwebzio-extended
4.2%85.5%Timpiウィルソン AItimpibot
1.4%86.4%Perplexityperplexity-AIperplexity-ai
4.8%85.9%MetaAll Meta AImeta-externalfetcher
7.0%83.6%Open AISearch GPTOAI-searchbot
4.8%85.9%MetaAll Meta AImeta-externalagent
方法論

Bright Dataは、数十億の主要ウェブサイトから世界で最も需要の高い公開ウェブデータをウェブスクレイピングしています。コンプライアンス製品「Bright Shield」を通じて、ウェブスクレイピング対象サイトのrobot.txtからユーザーエージェントに対する許可/拒否コマンドを収集しています。現在のサンプルサイト数は9,832,187件、収集済みユニークユーザーエージェントは約33,000件です。

研究チームは、対象ユーザーエージェントがサンプル内で明示的にブロックされる割合、および「(*)」コマンドでブロックされる全ユーザーエージェントを特定しました。さらに、全てのクローラーを拒否するウェブサイトの全体的な割合も追跡しています。各ユーザーエージェントは、企業名・用途・ブロック方法などの追加情報を含むリンクにより、可能な限り詳細に識別されています。

ユーザーエージェントに関するご意見は [email protected]までメールでお寄せください

最終更新日:2025年12月2日