アーカイブAPI

Bright Dataの膨大なキャッシュコレクションにアクセスし、何十億ものドメインから費用対効果の高いHTMLディスカバリーを提供します。毎週1PB以上が追加されるため、最新のデータインサイトで常に先を行くことができます。これまでにないシームレスで効率的なデータ検索を体験してください。

専門家に依頼する

フィルタリング可能なメタデータを通して新しいソースを発見する。
モダリティ、言語、領域によって的確にターゲットを絞る。
継続的または単発のニーズに合わせてカスタムデータセットを作成する。
注釈やラベリングもオプションで承ります。

世界中の20,000+人のお客様から信頼されています。

大規模なウェブデータへのアクセス

Bright DataのアーカイブAPIは、高度なフィルタリングと配信オプションにより、リアルタイムで継続的に更新されるデータを提供します。

データ収集

公開されたウェブデータをリアルタイムで継続的に取得し、"今 "最新の結果を提供する。

データ量

8ヶ月で17.5PBを収集、1,180億ページをカバーし、1週間で〜1PB、20億ユニークURLが追加される。

フィルタリングと配信

カテゴリ、ドメイン、言語、日付などでフィルタリング。Amazon S3またはWebhook経由で配信。

カバー範囲と関連性

Archive APIは、実際のスクレイピングビジネスのニーズに基づいた、価値の高い、関連性の高いウェブサイトデータに焦点を当てています。

アーカイブ API プレイグラウンド

デモウェブアーカイブ検索

私たちのウェブアーカイブAPIがどのように機能するか、例のドメインで確認してください

デモドメイン

example.com

時間範囲

最大年齢: 1日

アーカイブ結果

あなたのアーカイブ結果はここに表示されます

「デモアーカイブデータを表示」をクリックして例の出力を確認するか、検索するためにフィルターを設定してください

コード例

SERP APIの統合の準備はできていますか？

強力なSERP APIを使って始めましょう。Google、Bingなどからリアルタイムの検索結果にアクセスします。

無料で始めるドキュメント Postman

アーカイブAPIでウェブのスライスをつかむ

何十億ものHTMLページを含むペタバイト規模のウェブアーカイブからデータを取得します。動画や画像のURL、100以上の言語のテキスト、過去のSERPを発見。

構造化＆クリーン

AIのモデルトレーニングや推論に最適な、一貫したスキーマを持つ前処理済みデータ。

コード例

すぐに使えるPython、Node.js、cURL、PHP、Go、Java、Rubyのスニペットで、AIワークフローに簡単に統合できます。

ドキュメンテーション

ChatGPT、Claude、その他のLLM統合のための包括的なガイドとノートブック。

                              # TT アーカイブの検索を開始するには、次の /search エンドポイントを使用してください。エンドポイントPOST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization：ベアラ $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters"：{"max_age"："1d", "domain_whitelist"：["example.com"]}}'

                              # 特定の問い合わせのステータスを確認する。エンドポイントGET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "認証：ベアラ $API_KEY"

                              # 現在の検索状況をすべて確認する。エンドポイントGET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization：ベアラ $API_KEY"

アーカイブAPIの使用例

コンテンツの変更を追跡し、何十億もの過去のウェブスナップショットで傾向を分析。4,000万ドメインから1,750PBのキャッシュデータにアクセスし、再クロールすることなく、縦断的な調査、競合分析、市場情報を得ることができます。

専門家と話す

何百万ものドメインから事前にスクレイピングされ、JSレンダリングされたコンテンツを使用して、包括的な検索インデックスを即座に構築します。カテゴリ、言語、日付でフィルタリングし、インフラコストを削減しながら、フォーカスされたインデックスを作成します。

専門家と話す

17.5PBのクリーンなウェブデータでAIモデルをトレーニング。毎週1PB追加される、多様なソースからの新鮮で高品質なコンテンツを、機械学習アプリケーション用に最適化されたフォーマットで配信。

専門家と話す

何十億ものドメインからのシームレスなデータ検索

動画、画像、音声などのURLを簡単に発見し、取得することができます。

柔軟性

エンタープライズグレードのインフラ

ブライトデータのプラットフォームは、世界中の20,000+以上の企業に電力を供給し、99.99%のアップタイム、400M+カ国をカバーする195リアルユーザーIPへのアクセスで安心を提供しています。

スケーラブル

高度なデータの発見、収集、処理

プロキシやブロック解除のインフラを維持することなく、最大限のコントロールと柔軟性を得る。CAPTCHAやブロックを避けながら、あらゆる地域から簡単にデータをスクレイピングできます。

安定した

ワークフローに合わせる

カスタマイズされたレポート、ダッシュボード、分析などの配信および統合オプションにより、過去のクロールや複数のウェブサイトにわたって、構造化され、検証されたデータを取得します。

コンプライアンス

業界をリードするコンプライアンス

当社の個人情報保護活動は、EUデータ保護規制枠組み、GDPR、CCPAを含むデータ保護法を遵守し、プライバシー権の行使要求などを尊重します。

ウェブデータの収集を開始する。簡単に。

専門家と話す

アーカイブAPI FAQ

アーカイブAPIとは何ですか？

Archive APIは、Bright Dataによる、大規模で継続的に拡張されるキャッシュリポジトリです。

完全なウェブページとメタデータを提供するため、AIのトレーニング、機械学習、大規模なデータ分析に最適です。

従来のウェブクロールとは異なり、Archive APIは関連性、鮮度、ユーザビリティを優先し、日々スクレイピングされるインターネットの最も重要な部分へのアクセスを提供します。

Bright DataのアーカイブAPIではどれくらいのデータが利用できますか？

Bright DataのArchive APIは、サービス開始後8ヶ月間だけで、4,000万ドメイン、280億ユニークURL、17.5 PBのデータを収集しました。

Archiveは、AIやデータ駆動型アプリケーションのための、最大かつ最新のウェブデータリポジトリとなっています。

アーカイブ・データにはどのくらい早くアクセスできますか？

Archive APIを使えば、すぐにデータにアクセスすることができます。APIを利用することで、Archiveのデータスナップショットをシームレスかつ効率的に検索、取得、フィルタリングすることができます。

過去3日間のデータ：スナップショットのサイズにより異なります。

3日以上前のデータ処理と配信に数時間から最大3日かかります（スナップショットのサイズによる）

データはどのように納品されますか？

アーカイブでは、既存のワークフローにシームレスに統合できるよう、2つの配信オプションをご用意しています：

Amazon S3バケット：データスナップショットをS3バケットに直接配信します。

ウェブフック：お客様のシステムにリアルタイムで統合するために、Webhook経由で取得します。

Archiveのデータをフィルタリングして、必要なものだけを取得することはできますか？

絶対に！Archive APIでは、データを取得する前にカテゴリ、ドメイン、日付、言語、国によるフィルタリングが可能で、必要なものだけを確実に取得できます。