アーカイブAPI

Bright Dataの膨大なキャッシュコレクションにアクセスし、何十億ものドメインから費用対効果の高いHTMLディスカバリーを提供します。毎週1PB以上が追加されるため、最新のデータインサイトで常に先を行くことができます。これまでにないシームレスで効率的なデータ検索を体験してください。

専門家に依頼する
archive api
  • フィルタリング可能なメタデータを通して新しいソースを発見する。
  • モダリティ、言語、領域によって的確にターゲットを絞る。
  • 継続的または単発のニーズに合わせてカスタムデータセットを作成する。
  • 注釈やラベリングもオプションで承ります。
世界中の20,000+人のお客様に信頼されています

大規模なウェブデータへのアクセス

Bright DataのアーカイブAPIは、高度なフィルタリングと配信オプションにより、リアルタイムで継続的に更新されるデータを提供します。

data collection

データ収集

公開されたウェブデータをリアルタイムで継続的に取得し、"今 "最新の結果を提供する。

data volume

データ量

8ヶ月で17.5PBを収集、1,180億ページをカバーし、1週間で〜1PB、20億ユニークURLが追加される。

delivery

フィルタリングと配信

カテゴリ、ドメイン、言語、日付などでフィルタリング。Amazon S3またはWebhook経由で配信。
coverage

カバー範囲と関連性

Archive APIは、実際のスクレイピングビジネスのニーズに基づいた、価値の高い、関連性の高いウェブサイトデータに焦点を当てています。

アーカイブ API プレイグラウンド

デモウェブアーカイブ検索
私たちのウェブアーカイブAPIがどのように機能するか、例のドメインで確認してください
デモドメイン
example.com
時間範囲
最大年齢: 1日
アーカイブ結果
あなたのアーカイブ結果はここに表示されます
「デモアーカイブデータを表示」をクリックして例の出力を確認するか、検索するためにフィルターを設定してください
            
          
コード例
                
              

ウェブアーカイブAPIの統合の準備はできていますか?

強力なウェブアーカイブAPIを使って始めましょう。スケーラブルなインフラストラクチャで歴史的なウェブデータにアクセスします。

アーカイブAPIでウェブのスライスをつかむ

何十億ものHTMLページを含むペタバイト規模のウェブアーカイブからデータを取得します。動画や画像のURL、100以上の言語のテキスト、過去のSERPを発見。

structured

構造化&クリーン

AIのモデルトレーニングや推論に最適な、一貫したスキーマを持つ前処理済みデータ。

code examples

コード例

すぐに使えるPython、Node.js、cURL、PHP、Go、Java、Rubyのスニペットで、AIワークフローに簡単に統合できます。

documentation

ドキュメンテーション

ChatGPT、Claude、その他のLLM統合のための包括的なガイドとノートブック。

                              # TT アーカイブの検索を開始するには、次の /search エンドポイントを使用してください。エンドポイントPOST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization:ベアラ $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters":{"max_age":"1d", "domain_whitelist":["example.com"]}}'
                              
                            
                              # 特定の問い合わせのステータスを確認する。エンドポイントGET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "認証:ベアラ $API_KEY"
                              
                            
                              # 現在の検索状況をすべて確認する。エンドポイントGET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization:ベアラ $API_KEY"
                              
                            

アーカイブAPIの使用例

コンテンツの変更を追跡し、何十億もの過去のウェブスナップショットで傾向を分析。4,000万ドメインから1,750PBのキャッシュデータにアクセスし、再クロールすることなく、縦断的な調査、競合分析、市場情報を得ることができます。
専門家と話す
deep research
何百万ものドメインから事前にスクレイピングされ、JSレンダリングされたコンテンツを使用して、包括的な検索インデックスを即座に構築します。カテゴリ、言語、日付でフィルタリングし、インフラコストを削減しながら、フォーカスされたインデックスを作成します。
専門家と話す
17.5PBのクリーンなウェブデータでAIモデルをトレーニング。毎週1PB追加される、多様なソースからの新鮮で高品質なコンテンツを、機械学習アプリケーション用に最適化されたフォーマットで配信。
専門家と話す
data_enrichment_for_ai_models

何十億ものドメインからのシームレスなデータ検索

動画、画像、音声などのURLを簡単に発見し、取得することができます。

柔軟性

エンタープライズグレードのインフラ

ブライトデータのプラットフォームは、世界中の20,000+以上の企業に電力を供給し、99.99%のアップタイム、150M+カ国をカバーする195リアルユーザーIPへのアクセスで安心を提供しています。

スケーラブル

高度なデータの発見、収集、処理

プロキシやブロック解除のインフラを維持することなく、最大限のコントロールと柔軟性を得る。CAPTCHAやブロックを避けながら、あらゆる地域から簡単にデータをスクレイピングできます。

安定した

ワークフローに合わせる

カスタマイズされたレポート、ダッシュボード、分析などの配信および統合オプションにより、過去のクロールや複数のウェブサイトにわたって、構造化され、検証されたデータを取得します。

compliance
コンプライアンス

業界をリードするコンプライアンス

当社の個人情報保護活動は、EUデータ保護規制枠組み、GDPR、CCPAを含むデータ保護法を遵守し、プライバシー権の行使要求などを尊重します。

ウェブデータの収集を開始する。簡単に。

アーカイブAPI FAQ

Archive APIは、Bright Dataによる、大規模で継続的に拡張されるキャッシュリポジトリです。

完全なウェブページとメタデータを提供するため、AIのトレーニング、機械学習、大規模なデータ分析に最適です。

従来のウェブクロールとは異なり、Archive APIは関連性、鮮度、ユーザビリティを優先し、日々スクレイピングされるインターネットの最も重要な部分へのアクセスを提供します。

Bright DataのArchive APIは、サービス開始後8ヶ月間だけで、4,000万ドメイン、280億ユニークURL、17.5 PBのデータを収集しました。

Archiveは、AIやデータ駆動型アプリケーションのための、最大かつ最新のウェブデータリポジトリとなっています。

Archive APIを使えば、すぐにデータにアクセスすることができます。APIを利用することで、Archiveのデータスナップショットをシームレスかつ効率的に検索、取得、フィルタリングすることができます。

過去3日間のデータ:スナップショットのサイズにより異なります。

3日以上前のデータ処理と配信に数時間から最大3日かかります(スナップショットのサイズによる)

アーカイブでは、既存のワークフローにシームレスに統合できるよう、2つの配信オプションをご用意しています:

Amazon S3バケット:データスナップショットをS3バケットに直接配信します。

ウェブフック:お客様のシステムにリアルタイムで統合するために、Webhook経由で取得します。

絶対に!Archive APIでは、データを取得する前にカテゴリ、ドメイン、日付、言語、国によるフィルタリングが可能で、必要なものだけを確実に取得できます。