Data Firehose & Web Archive Pricing
Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.
世界中の20,000+人のお客様から信頼されています。
Customer favorite features
- ペタバイト規模のリポジトリ
- 完全なHTMLページとメタデータ
- 高度なフィルタリングと検索
- 1日あたり約2.5 PB追加
- テキスト、画像、動画、音声
- 柔軟なデリバリーオプション
- 1日あたり5T以上のテキストトークン追加
- APIファーストアクセス
- AIのためのデータ
- 1日あたり25億以上の画像・動画URL追加
- メンテナンス不要
- 99.99%稼働率+24時間365日サポート
AWS Marketplaceでのお支払い
AWSのコミットメント達成に向けて購入を活用し、調達と請求書発行を一か所で効率化できます。AWSのパートナー向け厳格な検証およびコンプライアンスチェックの恩恵を受けられます。
業界をリードするコンプライアンス
当社のプライバシー慣行は、EUデータ保護規制フレームワーク、GDPR、CCPAを含むデータ保護法に準拠しており、プライバシー権の行使に関するリクエストへの対応など、幅広く対応しています。
何が必要かわからない場合は?
Archive API よくある質問
Data FirehoseとWeb Archiveの違いは何ですか?
Data Firehoseは、収集されたリアルタイムのウェブデータの継続的なストリームを配信します(1日約10億件のレコードを取り込み)。これはアクティブな監視、価格追跡、継続的なAIトレーニングパイプラインに最適です。Web Archiveは、6,240億以上のキャッシュされたウェブページ(90PB以上)の大規模な過去のリポジトリへのアクセスを提供し、詳細な調査、バックテスト、縦断的分析に最適です。多くのエンタープライズチームは両方を活用しています:Firehoseで最新シグナルを、Archiveで過去のコンテキストを取得します。
データにはどのくらい早くアクセスできますか?
Data Firehoseを通じて、すぐにデータにアクセスできます。APIを使用すると、データスナップショットをシームレスかつ効率的に検索、取得、フィルタリングできます。
- 過去1日以内のデータ:数分から数時間以内に配信されます(スナップショットのサイズによって異なります)
- 1日以上前のデータ:数時間から最大3日かかります(スナップショットのサイズによって異なります)
データはどのように配信されますか?
Archiveは、既存のワークフローへのシームレスな統合を実現するための2つの配信オプションを提供します:
- Amazon S3バケット:データスナップショットをS3バケットに直接配信します。
- Webhook:システムへのリアルタイム統合のためにWebhook経由で取得します。
必要なデータだけを取得するためにArchiveのデータをフィルタリングできますか?
もちろんです!Data FirehoseとArchive APIの両方で、データ取得前にカテゴリ、ドメイン、日付、言語、国でフィルタリングでき、必要なデータのみを取得できます。
配信方法によって追加料金はかかりますか?
いいえ、標準的な配信方法はコストに含まれています。Data FirehoseとWeb Archiveの両方で、データをAmazon S3バケットに直接配信するか、Webhook経由で取得して既存のシステムにシームレスに統合するかを選択できます。Data Firehoseはリアルタイムの継続的なストリーミングもサポートしています。
データにカスタムフィルターを適用するために追加料金を支払う必要がありますか?
いいえ、カスタムフィルタリングは有料オプションではなく、コア機能です。カテゴリ、ドメイン、日付、言語、国による厳格なフィルタリングをお勧めします。ストリームやアーカイブの取得範囲を十分に絞り込むことで、不要なレコードの総量を削減でき、全体的なデータコストを最適化できます。
Bright DataのArchiveはCommon Crawlと比べてどうですか?
大規模なウェブデータを扱う際、鮮度、関連性、アクセシビリティが重要です。Common Crawlがウェブの広範な過去のスナップショットを提供するのに対し、Bright DataのArchive APIはリアルタイムで継続的に更新されるデータと高度なフィルタリング・配信オプションを提供します。以下に比較をご覧ください:
| 機能 | Bright DataのArchive | Common Crawl |
| データ収集 | リアルタイムで公開ウェブデータを継続的にキャプチャし、「今」に近い最新の結果を提供します。 | 定期的なウェブクローリング(リアルタイムではない)、月次または隔月更新。データが古くなる場合があります。 |
| データ量 | 8ヶ月で17.5 PB収集、1,180億ページをカバー(4,000万ドメインから280億のユニークURL)。毎週約2.5 PBと数十億のユニークURLを追加。 | 18年間で2,500億ページを収集。 |
| ウェブサイトカバレッジと関連性 | 実際のウェブスクレイピングのビジネスニーズに基づき、高価値で関連性の高いウェブサイトデータに焦点を当てています。 | 古いページや低品質なページを含め、無差別にクロールします。 |
| データタイプ | 完全なウェブページ(JSレンダリング済み) | 98.6% HTMLとテキスト |
| フィルタリングと配信 | 完全な検索・配信プラットフォーム:カテゴリ、ドメイン、言語、日付などでフィルタリング。Amazon S3またはWebhook経由で配信。 | フィルタリングや配信機能なし。大量の生WARCファイルを手動で処理する必要があります。 |