Bright Data Brightbot Crawler
Brightbotとは何ですか?
BrightbotはBright Dataのデータ収集クローラーです。Bright Dataの全製品・サービスにおける主要なデータ収集パイプラインとして機能します。24時間以内に同一データの重複ダウンロードを防止するキャッシュ層を内蔵しており、特別なビジネス上の理由による例外を除きます。利用可能なウェブサイトリソースの公正な使用を確保し、悪用を防ぐため、広範な技術的対策を採用しています。 Brightbotの活動は完全に透明性が高く、独自のユーザーエージェントとソースIPサブネットを利用します。そのため、そのトラフィックと活動はユーザートラフィックから完全に分離され、Bright DataのWebマスターコンソールやcollectors.txtを使用して追跡や制御が可能です。
Brightbotのトラフィックを識別するにはどうすればよいですか?
Brightbotは次の2つのパラメータで容易に識別できます:
- User-Agent: "Brightbot 1.0"
- ソースIPサブネット 82.97.199.0/24
両方を確認することで正確な識別が保証されます。
ウェブサイトはなぜBrightbotをホワイトリスト登録すべきですか?
- 使用状況分析およびレコメンデーションエンジンデータから収集トラフィックをフィルタリングする。
- 悪用防止率99.99% - ウェブサイトがBrightbotをホワイトリスト登録すると、Bright Dataはトラフィックを100%制御するため、顧客の一部を失うリスクを承知で、全顧客にBrightbot経由でのみ動作させるよう強制する準備が整います。
- リトライや重複リソースリクエストを削減。
- トラフィックを分離し、それを処理するリソースを制限する。
- 他者があなたのウェブサイトで何を見ているかを可視化 - 統計とダッシュボードを提供。
- 公開データではなく、ログインが必要なページに何を(もしあれば)移動させるかについて、より情報に基づいた決定を下す。
Web Masterコンソールとは何ですか?
Webマスターコンソールは、Bright Dataがウェブサイト所有者とコミュニケーションを取る手段です。これにより、ウェブサイト所有者はコンソール内でドメイン所有権を登録し、それらのドメインを対象とした収集トラフィックに対する透明性と制御を得ることができます。
認証方法は、生成されたトークンをドメインのDNSエントリに追加するだけの簡単なものです。

各ドメインの統計ページ内で、所有者はBright Dataによって測定されたドメインの健全性統計とトラフィック統計を取得できます。

アラート
コンソール内でウェブマスターは、特定の種類の情報(例:個人識別情報(PII)のスキャン、特定のウェブサイトエンドポイントへのアクセスなど)がアクセスされた際に追跡・通知を受け取るためのアラートルールを追加できます。


collectors.txtとは何ですか?
collectors.txtファイルは、Bright DataのWeb MasterConsoleが提供する設定可能なリソースであり、ウェブマスターが自社サイトからの倫理的かつ効率的なデータ収集に関するガイドラインを定義することを可能にします。その主な目的は、Bright DataのウェブクローラーであるBrightbotに対して特定のアクセスルールと制限を伝達することで、透明性と制御性を高めることです。 Web Masterはcollectors.txtを使用して、個人識別情報(PII)を含むエンドポイントを指定したり、広告リンクやレビューなどのインタラクティブ要素へのアクセスを禁止したり、オーガニックトラフィック負荷を報告したり、データの著作権ステータスを更新したり、リソース過負荷を防ぐためのピークトラフィック時間帯を定義したりできます。このファイルは、データ収集がプライバシー法やリソース制約に沿うことを保証し、ウェブサイトとの責任ある相互作用を促進します。 設定後、Bright Dataはcollectors.txtファイルを審査し、Brightbotは運用中に承認されたガイドラインを適用します。
プロテクティブテック
Bright Dataは長年にわたり、ネットワークの意図的または偶発的な悪用を特定・防止・軽減するための機能と技術層を追加してきました。KYC確認などのコンプライアンスツールについてはコンプライアンスセクションで詳述します。ここではこの目的で導入された自動化技術に焦点を当てます。
ヘルスモニター(DDoS保護)
Bright Dataの製品が対象とする全ドメインに対し、システムはヘルスモニターを開設します。 ヘルスモニターは、地理的位置と時間枠を横断して24時間365日、ドメインの応答性を追跡します。各ヘルスモニターは、監視対象ドメインに向けられたBright Dataの集約トラフィックをリアルタイムで受信します。モニターがBright Dataのトラフィックとドメイン応答性の低下との相関関係を検出した場合、ドメインに悪影響を与えなかった最後のトラフィックレートに対応するレート制限を適用します。このレート制限はキャッシュされ、削除されません。
以下はその事例です - 影響が特定され、2分以内にレート制限が適用されました。赤いマーカーは、その後Bright Dataによってブロックされたトラフィックと、正常に戻ったウェブサイトのRTTを示しています。

ドメイン分類
Bright Dataは、全製品において顧客が対象とする全ドメインを分類します。毎日30万以上の新規ドメインが分類対象となります。マルウェアやフィッシングなど永続的にブラックリスト登録される分類もあれば、政府機関やNGOなどコンプライアンス部門による特別な審査・承認を経て対象化が許可されるデフォルトブロックカテゴリも存在します。

認証とクッキーのブロック
デフォルトでは、Bright Dataはログインが必要なすべてのデータを非公開とみなします。そのため、可視トラフィック全体においてBright Dataは認証クッキーの使用をブロックし、ブラウザ使用時にはパスワード入力機能もブロックします。
特別な許可はコンプライアンス部門への申請により取得可能ですが、データ所有者が顧客のアクセスを明示的に承諾した極めて稀なケースでのみ付与されます。
ユースケース追跡
KYC確認の際、レジデンシャルプロキシネットワークへのアクセス申請時に顧客が申告した対象ドメインと業種を記録します。
承認後、Bright Dataは顧客の利用状況を追跡し、申告されたユースケースから逸脱した場合、コンプライアンスチームにフラグが立てられ、顧客との調査が行われます。
コンプライアンスと倫理
- 利用規約 -
https://brightdata.com/trustcenter/acceptable-use-policy-bright-data - Bright Data KYC確認プロセス -
https://brightdata.com/trustcenter/kyc - 利用状況の監視 -
https://brightdata.com/trustcenter/proxy-services-verticals-usage-monitoring - ドメイン分類 -
https://brightdata.com/trustcenter/ethical-network-use-classification - 不正利用の防止と対応 -
https://brightdata.com/trustcenter/abuse - WWWの保護 -
https://brightdata.com/trustcenter/brightbot-ethical-web-data-guardian - Web監視 -
https://brightdata.com/trustcenter/ethical-web-data-collection-monitoring - 情報セキュリティ -
https://brightdata.com/trustcenter/data-security-overview-protection-measures