Question 1

データファイアホースとウェブアーカイブの違いは何ですか？

Accepted Answer

データファイアホースは、収集されたライブウェブデータのリアルタイムの継続ストリーム（1日約10億レコードを取り込み）を提供し、アクティブな監視、価格追跡、継続的なAIトレーニングパイプラインに最適です。ウェブアーカイブは、6,240億以上のキャッシュウェブページ（90PB以上）の大規模な履歴リポジトリへのアクセスを提供し、深い調査、バックテスト、縦断的分析に最適です。多くのエンタープライズチームは両方を使用しています：最新シグナルにはファイアホース、履歴コンテキストにはアーカイブを活用します。

Question 2

データにはどのくらい早くアクセスできますか？

Accepted Answer

データファイアホースを通じてすぐにデータへのアクセスを開始できます。APIを使用して、データスナップショットをシームレスかつ効率的に検索、取得、フィルタリングできます。

 	過去1日以内のデータ：数分から数時間以内に配信されます（スナップショットのサイズによって異なります）
 	1日以上前のデータ：処理と配信に数時間から最大3日かかります（スナップショットのサイズによって異なります）

Question 3

データはどのように配信されますか？

Accepted Answer

アーカイブは、既存のワークフローへのシームレスな統合を確保するために2つの配信オプションを提供しています：

 	Amazon S3バケット：データスナップショットをS3バケットに直接配信します。
 	Webhook：システムへのリアルタイム統合のためにWebhook経由で取得します。

Question 4

アーカイブのデータをフィルタリングして必要なものだけを取得できますか？

Accepted Answer

もちろんです！データファイアホースとアーカイブAPIの両方で、データ取得前にカテゴリ、ドメイン、日付、言語、国でフィルタリングでき、必要なデータのみを取得できます。

Question 5

異なる配信方法に追加料金はかかりますか？

Accepted Answer

いいえ、標準の配信方法はコストに含まれています。データファイアホースとウェブアーカイブの両方で、Amazon S3バケットへの直接配信またはWebhook経由での取得を選択でき、既存システムへのシームレスな統合が可能です。データファイアホースは即時の継続ストリーミングもサポートしています。

Question 6

カスタムフィルターの適用に追加料金はかかりますか？

Accepted Answer

いいえ、カスタムフィルタリングは有料アドオンではなく、コア機能です。カテゴリ、ドメイン、日付、言語、国による厳密なフィルタリングを推奨しています。ストリームやアーカイブ取得の範囲を徹底的に絞り込むことで、送信される不要なレコードの総量を削減し、全体的なデータコストを最適化できます。

Question 7

Bright DataのアーカイブはCommon Crawlと比べてどうですか？

Accepted Answer

大規模なウェブデータを扱う際、鮮度、関連性、アクセシビリティが重要です。Common Crawlがウェブの幅広い歴史的スナップショットを提供する一方、Bright DataのアーカイブAPIは高度なフィルタリングと配信オプションを備えたリアルタイムの継続更新データを提供します。比較は以下の通りです：



機能
Bright Dataのアーカイブ
Common Crawl


データ収集
リアルタイムで公開ウェブデータを継続的に収集し、「現在」に近い最新の結果を提供します。
定期的なウェブクロール（リアルタイムではなく）、月次または隔月で更新。データが古くなる可能性があります。


データ量
8か月で17.5 PBを収集し、1,180億ページ（4,000万ドメインから280億のユニークURL）をカバー。毎週約2.5 PBと数十億のユニークURLを追加。
18年間で2,500億ページを収集。


ウェブサイトカバレッジと関連性
実際のスクレイピングビジネスニーズに基づいた高価値で関連性の高いウェブサイトデータに焦点を当てています。
古いページや低品質なページを含め、無差別にクロールします。


データタイプ
完全なウェブページ（JSレンダリング済み）
98.6% HTMLとテキスト


フィルタリングと配信
完全な検索・配信プラットフォーム－カテゴリ、ドメイン、言語、日付などでフィルタリング。Amazon S3またはWebhook経由で配信。
組み込みのフィルタリングや配信機能なし。巨大な生WARCファイルを手動で処理する必要があります。

データファイアホースとウェブアーカイブの料金

データファイアホースでリアルタイムの公開ウェブレコードをストリーミング、またはウェブアーカイブで90PB以上のキャッシュページにアクセス。

世界中の20,000+人のお客様から信頼されています。

お客様に人気の機能

AWS Marketplaceでのお支払い

業界トップレベルのコンプライアンス

何が必要かわからない場合は？

アーカイブAPI よくある質問