アーカイブAPI
Bright Dataの膨大なキャッシュコレクションにアクセスし、何十億ものドメインから費用対効果の高いHTMLディスカバリーを提供します。毎週1PB以上が追加されるため、最新のデータインサイトで常に先を行くことができます。これまでにないシームレスで効率的なデータ検索を体験してください。
- フィルタリング可能なメタデータを通して新しいソースを発見する。
- モダリティ、言語、領域によって的確にターゲットを絞る。
- 継続的または単発のニーズに合わせてカスタムデータセットを作成する。
- 注釈やラベリングもオプションで承ります。
世界中の20,000+人のお客様に信頼されています
大規模なウェブデータへのアクセス
Bright DataのアーカイブAPIは、高度なフィルタリングと配信オプションにより、リアルタイムで継続的に更新されるデータを提供します。
データ収集
公開されたウェブデータをリアルタイムで継続的に取得し、"今 "最新の結果を提供する。
データ量
8ヶ月で17.5PBを収集、1,180億ページをカバーし、1週間で〜1PB、20億ユニークURLが追加される。
フィルタリングと配信
カバー範囲と関連性
アーカイブ API プレイグラウンド
アーカイブAPIでウェブのスライスをつかむ
何十億ものHTMLページを含むペタバイト規模のウェブアーカイブからデータを取得します。動画や画像のURL、100以上の言語のテキスト、過去のSERPを発見。
構造化&クリーン
AIのモデルトレーニングや推論に最適な、一貫したスキーマを持つ前処理済みデータ。
コード例
すぐに使えるPython、Node.js、cURL、PHP、Go、Java、Rubyのスニペットで、AIワークフローに簡単に統合できます。
ドキュメンテーション
ChatGPT、Claude、その他のLLM統合のための包括的なガイドとノートブック。
# TT アーカイブの検索を開始するには、次の /search エンドポイントを使用してください。エンドポイントPOST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Authorization:ベアラ $API_KEY"
-H 'Content-Type: application/json'
--data '{"filters":{"max_age":"1d", "domain_whitelist":["example.com"]}}'
# 特定の問い合わせのステータスを確認する。エンドポイントGET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "認証:ベアラ $API_KEY"
# 現在の検索状況をすべて確認する。エンドポイントGET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization:ベアラ $API_KEY"
アーカイブAPIの使用例
何十億ものドメインからのシームレスなデータ検索
動画、画像、音声などのURLを簡単に発見し、取得することができます。

エンタープライズグレードのインフラ
ブライトデータのプラットフォームは、世界中の20,000+以上の企業に電力を供給し、99.99%のアップタイム、150M+カ国をカバーする195リアルユーザーIPへのアクセスで安心を提供しています。

高度なデータの発見、収集、処理
プロキシやブロック解除のインフラを維持することなく、最大限のコントロールと柔軟性を得る。CAPTCHAやブロックを避けながら、あらゆる地域から簡単にデータをスクレイピングできます。

ワークフローに合わせる
カスタマイズされたレポート、ダッシュボード、分析などの配信および統合オプションにより、過去のクロールや複数のウェブサイトにわたって、構造化され、検証されたデータを取得します。
業界をリードするコンプライアンス
当社の個人情報保護活動は、EUデータ保護規制枠組み、GDPR、CCPAを含むデータ保護法を遵守し、プライバシー権の行使要求などを尊重します。
ウェブデータの収集を開始する。簡単に。
アーカイブAPI FAQ
アーカイブAPIとは何ですか?
Archive APIは、Bright Dataによる、大規模で継続的に拡張されるキャッシュリポジトリです。
完全なウェブページとメタデータを提供するため、AIのトレーニング、機械学習、大規模なデータ分析に最適です。
従来のウェブクロールとは異なり、Archive APIは関連性、鮮度、ユーザビリティを優先し、日々スクレイピングされるインターネットの最も重要な部分へのアクセスを提供します。
Bright DataのアーカイブAPIではどれくらいのデータが利用できますか?
Bright DataのArchive APIは、サービス開始後8ヶ月間だけで、4,000万ドメイン、280億ユニークURL、17.5 PBのデータを収集しました。
Archiveは、AIやデータ駆動型アプリケーションのための、最大かつ最新のウェブデータリポジトリとなっています。
アーカイブ・データにはどのくらい早くアクセスできますか?
Archive APIを使えば、すぐにデータにアクセスすることができます。APIを利用することで、Archiveのデータスナップショットをシームレスかつ効率的に検索、取得、フィルタリングすることができます。
過去3日間のデータ:スナップショットのサイズにより異なります。
3日以上前のデータ処理と配信に数時間から最大3日かかります(スナップショットのサイズによる)
データはどのように納品されますか?
アーカイブでは、既存のワークフローにシームレスに統合できるよう、2つの配信オプションをご用意しています:
Amazon S3バケット:データスナップショットをS3バケットに直接配信します。
ウェブフック:お客様のシステムにリアルタイムで統合するために、Webhook経由で取得します。
Archiveのデータをフィルタリングして、必要なものだけを取得することはできますか?
絶対に!Archive APIでは、データを取得する前にカテゴリ、ドメイン、日付、言語、国によるフィルタリングが可能で、必要なものだけを確実に取得できます。