Data Firehose & Web Archive Pricing

Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.

DATA FIREHOSE (LAST 24 HRS)
$0.2/ 1K HTMLs
データの専門家に相談する
含まれるもの:
  • Fresh data - up to 24 hours
  • ~1 hour delivery (depending on snapshot size)
  • APIアクセス(ドメイン、カテゴリ、日付、言語、国、パスの高度なフィルタリング)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook)
  • 24時間年中無休のサポート
  • 大規模データニーズ向けのボリューム割引
Best for: Continuously refreshed data pipelines
Common use case:
  • AI search & analytics pipelines requiring up-to-date content
  • Aggregated Web Unlocker and SERP cache - updated hourly
  • Continuous web monitoring and indexing
Archived data (Over 24 hrs)
$1/ 1K HTMLs
データの専門家に相談する
含まれるもの:
  • Historical data - Over 24 hours
  • Minimum 2 days delivery (depending on snapshot size)
  • APIアクセス(ドメイン、カテゴリ、日付、言語、国、パスの高度なフィルタリング)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook
  • 24時間年中無休のサポート
  • 大規模データニーズ向けのボリューム割引
Best for: Historical data at scale
Common use case:
  • AI model training data backfilling at scale
  • Reproducible historical snapshots for research & indexing
  • Auditing or analyzing past web content across domains
* 大量データ、長期契約、または複数のスクレイパープロジェクトには、ボリューム割引が適用されます
これらの支払い方法を受け付けています:

Customer favorite features

  • ペタバイト規模のリポジトリ
  • 完全なHTMLページとメタデータ
  • 高度なフィルタリングと検索
  • 1日あたり約2.5 PB追加
  • テキスト、画像、動画、音声
  • 柔軟なデリバリーオプション
  • 1日あたり5T以上のテキストトークン追加
  • APIファーストアクセス
  • AIのためのデータ
  • 1日あたり25億以上の画像・動画URL追加
  • メンテナンス不要
  • 99.99%稼働率+24時間365日サポート
STREAMLINED

AWS Marketplaceでのお支払い

AWSのコミットメント達成に向けて購入を活用し、調達と請求書発行を一か所で効率化できます。AWSのパートナー向け厳格な検証およびコンプライアンスチェックの恩恵を受けられます。

COMPLIANT

業界をリードするコンプライアンス

当社のプライバシー慣行は、EUデータ保護規制フレームワーク、GDPR、CCPAを含むデータ保護法に準拠しており、プライバシー権の行使に関するリクエストへの対応など、幅広く対応しています。

何が必要かわからない場合は?

Archive API よくある質問

Data Firehoseは、収集されたリアルタイムのウェブデータの継続的なストリームを配信します(1日約10億件のレコードを取り込み)。これはアクティブな監視、価格追跡、継続的なAIトレーニングパイプラインに最適です。Web Archiveは、6,240億以上のキャッシュされたウェブページ(90PB以上)の大規模な過去のリポジトリへのアクセスを提供し、詳細な調査、バックテスト、縦断的分析に最適です。多くのエンタープライズチームは両方を活用しています:Firehoseで最新シグナルを、Archiveで過去のコンテキストを取得します。

Data Firehoseを通じて、すぐにデータにアクセスできます。APIを使用すると、データスナップショットをシームレスかつ効率的に検索、取得、フィルタリングできます。

  • 過去1日以内のデータ:数分から数時間以内に配信されます(スナップショットのサイズによって異なります)
  • 1日以上前のデータ:数時間から最大3日かかります(スナップショットのサイズによって異なります)

Archiveは、既存のワークフローへのシームレスな統合を実現するための2つの配信オプションを提供します:

  • Amazon S3バケット:データスナップショットをS3バケットに直接配信します。
  • Webhook:システムへのリアルタイム統合のためにWebhook経由で取得します。

もちろんです!Data FirehoseとArchive APIの両方で、データ取得前にカテゴリ、ドメイン、日付、言語、国でフィルタリングでき、必要なデータのみを取得できます。

いいえ、標準的な配信方法はコストに含まれています。Data FirehoseとWeb Archiveの両方で、データをAmazon S3バケットに直接配信するか、Webhook経由で取得して既存のシステムにシームレスに統合するかを選択できます。Data Firehoseはリアルタイムの継続的なストリーミングもサポートしています。

いいえ、カスタムフィルタリングは有料オプションではなく、コア機能です。カテゴリ、ドメイン、日付、言語、国による厳格なフィルタリングをお勧めします。ストリームやアーカイブの取得範囲を十分に絞り込むことで、不要なレコードの総量を削減でき、全体的なデータコストを最適化できます。

大規模なウェブデータを扱う際、鮮度関連性アクセシビリティが重要です。Common Crawlがウェブの広範な過去のスナップショットを提供するのに対し、Bright DataのArchive APIはリアルタイムで継続的に更新されるデータと高度なフィルタリング・配信オプションを提供します。以下に比較をご覧ください:

機能 Bright DataのArchive Common Crawl
データ収集 リアルタイムで公開ウェブデータを継続的にキャプチャし、「今」に近い最新の結果を提供します。 定期的なウェブクローリング(リアルタイムではない)、月次または隔月更新。データが古くなる場合があります。
データ量 8ヶ月で17.5 PB収集、1,180億ページをカバー(4,000万ドメインから280億のユニークURL)。毎週約2.5 PBと数十億のユニークURLを追加。 18年間で2,500億ページを収集。
ウェブサイトカバレッジと関連性 実際のウェブスクレイピングのビジネスニーズに基づき、高価値で関連性の高いウェブサイトデータに焦点を当てています。 古いページや低品質なページを含め、無差別にクロールします。
データタイプ 完全なウェブページ(JSレンダリング済み) 98.6% HTMLとテキスト
フィルタリングと配信 完全な検索・配信プラットフォーム:カテゴリ、ドメイン、言語、日付などでフィルタリング。Amazon S3またはWebhook経由で配信。 フィルタリングや配信機能なし。大量の生WARCファイルを手動で処理する必要があります。