Archive API Pricing

Power advanced pipelines for model training and web search with the world's largest web data repository

pay as you go plan icon
従量課金プラン
$0.2 /1K HTMLs
月額固定料金なし
始めましょう
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Historical data (+72 hours) starts at $1/1K HTMLs
2nd plan icon
エンタープライズ
Contact us for a
personalized quote
Talk to a sales expert
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Dedicated Account Manager
  • 24/7 premium support
  • SLA guarantees
  • Volume discounts for large-scale data needs
  • Custom integration support
  • Extended delivery options
* Volume discounts are available for large data volumes, long-term commitments, or multi-solution projects.
これらの支払い方法を受け付けています:
AWS logoAWSを使用していますか?AWSマーケットプレイスを通じて支払いできるようになりました
始めましょう

Customer favorite features

  • ペタバイト規模のリポジトリ
  • 完全なHTMLページとメタデータ
  • 高度なフィルタリング&検索
  • ~2.5 PBが毎日追加
  • テキスト、画像、動画、音声
  • 柔軟な配信オプション
  • 毎日5兆以上のテキストトークンを追加
  • APIファーストアクセス
  • AI対応データ
  • 毎日25億以上の画像/動画URLを追加
  • メンテナンス不要
  • 99.99% の稼働率 + 24時間365日のサポート
STREAMLINED

AWS Marketplace での支払い

購入分を活用してAWSコミットメントを達成し、調達と請求書の処理を一元化して効率化を実現。パートナー向けのAWSによる堅牢な検証とコンプライアンスチェックの恩恵を受けられます。

準拠

業界をリードするコンプライアンス

当社のプライバシー慣行は、EUデータ保護規制枠組み、GDPR、CCPAを含むデータ保護法に準拠し、プライバシー権行使の要請などに対応しています。

アーカイブAPIに関するよくある質問

Archive APIは、Bright Dataが提供する大規模で継続的に拡張されるキャッシュリポジトリであり、公開ウェブデータを大規模に収集・配信するために設計されています。完全なウェブページとメタデータを提供するため、AIトレーニング、機械学習、大規模データ分析に最適です。従来のウェブクロールとは異なり、Archive APIは関連性、鮮度実用性を優先し、毎日スクレイピングされるインターネットの最も重要な部分にアクセスできます。

当社のアーカイブAPIを通じて、すぐにデータへのアクセスを開始できます。このAPIにより、アーカイブからのデータスナップショットをシームレスかつ効率的に検索、取得、フィルタリングできます。

  • 過去3日間のデータ:数分から最大数時間以内に提供(スナップショットサイズによる)
  • 3日以上前のデータ:処理と配信に数時間~最大3日かかります(スナップショットサイズによる)

アーカイブは既存ワークフローへのシームレスな統合を保証する2つの配信オプションを提供します:

  • Amazon S3 バケット: データスナップショットをS3バケットに直接配信します。
  • Webhook: Webhook経由で取得し、システムへリアルタイムに統合します。

もちろんです!Archive APIではデータを取得する前に、カテゴリ、ドメイン、日付、言語、国によるフィルタリングが可能で、必要な情報のみを取得できます。

大規模なウェブデータを扱う場合、 鮮度関連性アクセシビリティが 重要です。Common Crawlがウェブの広範な歴史的スナップショットを提供する一方、Bright DataのArchive APIは高度なフィルタリングと配信オプションを備えたリアルタイムで継続的に更新されるデータを提供します。両者の比較は以下の通りです:

機能 Bright DataのArchive Common Crawl
データ収集 公開ウェブデータをリアルタイムで継続的に収集し、「現在」時点の最新結果を提供。 定期的なウェブクロール(リアルタイムではない)、月次または隔月で更新。データは古くなっている可能性があります
データ量 8か月間で17.5PBを収集、1180億ページ(4000万ドメインからの280億ユニークURL)をカバー。週あたり約2.5PBと数十億のユニークURLを追加。 18年間で2500億ページを収集。
ウェブサイトのカバー率と関連性 実際のスクレイピング業務ニーズに基づき、高価値で関連性の高いウェブサイトデータに焦点を当てる。 無差別にクロールし、古くなったページや低品質なページも含む。
データタイプ 完全なウェブページ(JSレンダリング済み) 98.6% HTMLおよびテキスト
フィルタリングと配信 完全な発見・配信プラットフォーム - カテゴリ、ドメイン、言語、日付などによるフィルタリング。Amazon S3またはWebhook経由で配信。 組み込みのフィルタリングや配信機能なし。巨大な生のWARCファイルを手動で処理する必要あり。

必要な内容が不明な場合?