Archive API Pricing
Power advanced pipelines for model training and web search with the world's largest web data repository
Trusted by 20,000+ customers worldwide
Customer favorite features
- ペタバイト規模のリポジトリ
- 完全なHTMLページとメタデータ
- 高度なフィルタリング&検索
- ~2.5 PBが毎日追加
- テキスト、画像、動画、音声
- 柔軟な配信オプション
- 毎日5兆以上のテキストトークンを追加
- APIファーストアクセス
- AI対応データ
- 毎日25億以上の画像/動画URLを追加
- メンテナンス不要
- 99.99% の稼働率 + 24時間365日のサポート
AWS Marketplace での支払い
購入分を活用してAWSコミットメントを達成し、調達と請求書の処理を一元化して効率化を実現。パートナー向けのAWSによる堅牢な検証とコンプライアンスチェックの恩恵を受けられます。
業界をリードするコンプライアンス
当社のプライバシー慣行は、EUデータ保護規制枠組み、GDPR、CCPAを含むデータ保護法に準拠し、プライバシー権行使の要請などに対応しています。
アーカイブAPIに関するよくある質問
アーカイブAPIとは何ですか?
Archive APIは、Bright Dataが提供する大規模で継続的に拡張されるキャッシュリポジトリであり、公開ウェブデータを大規模に収集・配信するために設計されています。完全なウェブページとメタデータを提供するため、AIトレーニング、機械学習、大規模データ分析に最適です。従来のウェブクロールとは異なり、Archive APIは関連性、鮮度、実用性を優先し、毎日スクレイピングされるインターネットの最も重要な部分にアクセスできます。
データにはどのくらい早くアクセスできますか?
当社のアーカイブAPIを通じて、すぐにデータへのアクセスを開始できます。このAPIにより、アーカイブからのデータスナップショットをシームレスかつ効率的に検索、取得、フィルタリングできます。
- 過去3日間のデータ:数分から最大数時間以内に提供(スナップショットサイズによる)
- 3日以上前のデータ:処理と配信に数時間~最大3日かかります(スナップショットサイズによる)
データの提供方法は?
アーカイブは既存ワークフローへのシームレスな統合を保証する2つの配信オプションを提供します:
- Amazon S3 バケット: データスナップショットをS3バケットに直接配信します。
- Webhook: Webhook経由で取得し、システムへリアルタイムに統合します。
アーカイブのデータをフィルタリングして必要なものだけを取得できますか?
もちろんです!Archive APIではデータを取得する前に、カテゴリ、ドメイン、日付、言語、国によるフィルタリングが可能で、必要な情報のみを取得できます。
Bright DataのアーカイブとCommon Crawlを比較するとどうですか?
大規模なウェブデータを扱う場合、 鮮度、 関連性、 アクセシビリティが 重要です。Common Crawlがウェブの広範な歴史的スナップショットを提供する一方、Bright DataのArchive APIは高度なフィルタリングと配信オプションを備えたリアルタイムで継続的に更新されるデータを提供します。両者の比較は以下の通りです:
| 機能 | Bright DataのArchive | Common Crawl |
| データ収集 | 公開ウェブデータをリアルタイムで継続的に収集し、「現在」時点の最新結果を提供。 | 定期的なウェブクロール(リアルタイムではない)、月次または隔月で更新。データは古くなっている可能性があります |
| データ量 | 8か月間で17.5PBを収集、1180億ページ(4000万ドメインからの280億ユニークURL)をカバー。週あたり約2.5PBと数十億のユニークURLを追加。 | 18年間で2500億ページを収集。 |
| ウェブサイトのカバー率と関連性 | 実際のスクレイピング業務ニーズに基づき、高価値で関連性の高いウェブサイトデータに焦点を当てる。 | 無差別にクロールし、古くなったページや低品質なページも含む。 |
| データタイプ | 完全なウェブページ(JSレンダリング済み) | 98.6% HTMLおよびテキスト |
| フィルタリングと配信 | 完全な発見・配信プラットフォーム - カテゴリ、ドメイン、言語、日付などによるフィルタリング。Amazon S3またはWebhook経由で配信。 | 組み込みのフィルタリングや配信機能なし。巨大な生のWARCファイルを手動で処理する必要あり。 |