Webスクレイピング IDE

WebスクレイピングーIDE -
開発者向けに設計され、拡張性を重視した設計

堅牢なブロック解除プロキシインフラストラクチャ、すぐに利用を開始できるスクレイピング機能、人気ウェブサイトのコードテンプレートを搭載したホスト型IDEで、ウェブスクレイパーを構築します。

Free code templates available

  • Trustpilot, 4.8 stars out of 5
73+

既製の
JavaScript関数

38,000以上

当社のお客様が
構築したスクレイパー

195

プロキシエンドポイントを
持つ国の数

業界トップのプロキシインフラを活用

CAPTCHAやブロックを回避して、あらゆるジオロケーションから大量のデータをスクレイピングします。当社のホスト型ソリューションは、プロキシやブロック解除インフラストラクチャを維持する必要なく、最大限の制御と柔軟性を実現します。

コードテンプレートとビルド済みのJavaScript関数を使用します

主要ウェブサイトが提供する既製のJavaScript関数やコードテンプレートを使用して、ウェブスクレイパーを迅速かつ大規模に構築することにより、開発時間を大幅に短縮できます。

WebスクレイピングーIDEの機能

ウェブスクレイパーの既成テンプレート

すばやく作業を開始し、既存のコードをお客様の特定ニーズに合わせて調整します

インタラクティブプレビュー

ビルドしつつコードを監視し、コード内のエラーを迅速にデバッグします

内蔵のデバッグツール

過去のクローリングで発生した内容をデバッグし、次のバージョンで修正すべき点を理解します

JavaScriptでのブラウザスクリプティング

シンプルな手続き型JavaScriptを使用して、ブラウザの制御と解析コードを処理します

既成の機能

ブラウザのネットワーク呼び出しをキャプチャしたり、プロキシを構成したり、遅延読み込みUIからデータを抽出したりします

パーサー作成が容易

パーサーをcheerioで作成し、ライブプレビューを実行して、生成されたデータを確認します

インフラストラクチャの自動拡張

エンタープライズグレードのウェブスクレイパーを管理するために、ハードウェアやソフトウェアに投資する必要はありません

内蔵のプロキシとブロック解除機能

内蔵の指紋認証、自動再試行、CAPTCHA解決などにより、任意のジオロケーションにいるユーザーをエミュレートします

統合

スケジュールやAPIに基づいてクローリングをトリガーし、主要なストレージプラットフォームに当社のAPIを接続します

使用方法

カテゴリ内またはウェブサイト全体の製品リスト全体を検出するには、検出フェーズを実行する必要があります。サイト検索やカテゴリメニューのクリックには、次のような既成の機能を使用します。

  • 遅延読み込み検索からのデータ抽出 (load_more()、capture_graphql())
  • 商品発見向けのページネーション機能
  • rerun_stage()またはnext_stage()を使用し、並列スクレイピング向けに新規ページのキューへのプッシュをサポート

任意のページ向けのスクレイパーを、固定URL、APIを使用した動的URL、または発見フェーズから直接構築します。次の機能を活用して、ウェブスクレイパーをより迅速に構築します。

  • HTMLのパース(cheerioで)
  • ブラウザのネットワークコールをキャプチャする
  • GraphQL API向けのビルド済みツール
  • ウェブサイトJSON APIをスクレイピングする

構造化された完全なデータを確実に受信するための重要なステップ

  • データ受信方法のスキーマを定義する
  • データが正しい形式であることを示すカスタム検証コード
  • データには、JSON、メディアファイル、およびブラウザのスクリーンショットを含めることができる
次に示す一般的な保存先すべてを介してデータを配信:

  • API
  • Amazon S3
  • Webhook
  • Microsoft Azure
  • Google Cloud PubSub
  • SFTP
Datasets icon

Want to skip scraping, and just get the data?

Simply tell us the websites, job frequency, and your preferred storage. We'll handle the rest.

あらゆるユースケースに対応する設計

ウェブサイトスクレイパーインスピレーション

業界トップクラスのコンプライアンス

当社のプライバシーに関する取り組みは、新しいEUデータ保護規制フレームワークであるGDPR、2018年カリフォルニア消費者プライバシー法(CCPA)を含むデータ保護法に準拠しており、プライバシー権行使要請などを尊重します。