WebHarvy は、Web サイトからテキスト、HTML、画像、URL、電子メールを簡単に抽出し、抽出したコンテンツをさまざまな形式で保存できるウェブスクレイピングツールです。大規模なスクレイピングを実行している場合、Bright Dataが提供するプロキシサービスのいずれかを使用することで、成功率を高め、同じターゲットにより多くの同時リクエストを送ることができます。
WebHarvyのセットアップ
- WebHarvy Web Scraperをダウンロードしてインストールします
- 「Webharvy」 → 「ホーム」タブ → 「設定」 → 「プロキシ設定」の順に進みます
Bright Dataアカウントの設定
- Bright Dataのプロキシネットワークにサインアップします
- Bright Dataダッシュボードに移動します
- Bright Dataプロキシネットワークとの統合セクションで、クローラーまたはボットの使用オプションを選択します
- 次ボタンをクリックします
- 「API例」ページでは、以下の詳細が表示されます:
プロキシアドレス、ポート番号、ユーザー名、パスワード - WebHarvyプロキシの設定に戻り、Bright Dataの詳細を WebHarvyプロキシの設定に貼り付けます。
- +ボタンをクリックします
- 適用をクリックします
注:
Webharvyはマイニング時にのみプロキシサーバーを使用します。
Webharvyの構成ブラウザはこのプロキシサーバーを使用しないため、構成ブラウザ内でIPアドレスを確認しても、コンピュータの元のIPのままです。
構成ブラウザでプロキシサーバーを使用するには、Windowsでプロキシアドレスを直接設定する必要があります。
プロキシサーバーを無効にするには、Webharvy → 「ホーム」メニュー → 「設定」 → 「プロキシ設定」タブで、プロキシサーバー経由のネットワーク接続を有効にするチェックボックスをオフにするだけです。
あるいは、独自のデータ収集ツールを使用して、プロセスをより迅速かつ簡単にすることもできます。