データ収集のためのウェブアンロッカー機能:ブラウザーフィンガープリント、自動ロック解除、CAPTCHAの解決方法

ブライトデータのウェブアンロッカーは、ネットワークレベルでのカスタマイズされたトランスポート層セキュリティ(TLS)ハンドシェイク、プロトコルレベルでのユーザーエージェント生成から完全なCookie管理、ブラウザレベルでのブラウザ指紋エミュレーションまで完全対応。難易度の高いサイトへも、容易にアクセスできるようになります。
Aviv Besinksky
Aviv Besinsky | Product Manager
01-Dec-2021

データ収集を行う作業で、サイト毎に異なる仕様からアクセス拒否問題をいかに効率良く対処していくか?オルタナティブデータの需要が増える中で、悩ましい問題です。 サイトロック解除を行うウェブアンロッカーは、以前はウェブアンブロッカーと呼ばれていました。その過程で製品にどのような改善が加えられたのか?同記事では、最新版のウェブアンロッカー の機能面をご紹介します。

より優れた自動ブロック解除機能

ウェブアンロッカーの環境模倣機能には次のものがあります。:

  • ネットワークの観点からウェブアンロッカーを調べると、IPタイプの選択から、必要に応じって実施されるIPローテーションまですべてを正確に処理することができます。
  • プロトコルレベルでは、ウェブアンロッカーは、デコード(つまり、要求の受信)プロセスとエンコード(つまり、応答の送信)プロセスの両方で、HTTPヘッダー管理をより効果的に実行することができます。さらに、より優れた「ユーザーエージェント生成」機能を備えているため、生成されたユーザーエージェントをターゲットサイトの要件に一致するように制限しながら、固有のブラウザーフィンガープリントプロパティを処理します。最後に、ウェブアンロッカーはHTTP2をサポートできるようになっています。つまり、サーバープッシュだけでなくHTTPヘッダーフィールドの圧縮もより効果的に処理できるのです。
  • ハードウェア(HW)オペレーティングシステム(OS)に関しては、ウェブアンロッカーは、特定のシステムに接続されているすべてのデバイスと、それらに関連するドライバー(つまり、完全なデバイス列挙の模倣)、マウスの動き、画面の解像度、およびさまざまなものをエミュレートできます。デバイスのプロパティ。  

CAPTCHA認証の向上と解決

ウェブアンロッカーには、より優れたリクエスト管理機能があります。ターゲットサイトによって設定された新しい封鎖にリアルタイムで適応できるようになりました。機械学習(ML)、改善されたCAPTCHA解決、および再試行ロジックを使用して、最も効率的な(時間とリソースの両方の点で)データ取得パスを実現できます。

ウェブアンロッカー を強化するアルゴリズムは、理想的なフィンガープリント構成を使用し、ターゲットサイトから目的の応答/情報を取得しようとするようにトレーニングされています。 Webサイトが応答したとき、たとえば次のようになります。

  • 特定のIPからのリクエスト数に基づいてアクティビティを「疑わしい」として分類する(つまり、「レート制限」)
  • 「受け入れられない」ユーザーエージェント(「HTTP」など)の検出
  • ジオロケーションに基づいてリクエストをブロックする

ウェブアンロッカーは、この情報をリアルタイムで分析し、ユーザーに最高の成功率を提供する特定の/カスタマイズされた設定を使用して、ドメインごとに設定を再調整することができます。

改善されたフィンガープリント

「デバイスフィンガープリント」は、ウェブを閲覧するデバイスの一意のユーザー識別子です。フィンガープリントには、ユーザーのブラウザの構成とソフトウェア/ハードウェア環境に関する情報が含まれています。フィンガープリントの側面を理解することは、「Recaptcha」などの派生的な「症状」だけでなく、問題の根本を解決するため、ブロックを解除する上でおそらく最も重要な側面です。

この場合、手動でIPを変更していても、「簡単に」新しいセッションを開始できます。または、「HTML本文要素」ルールを作動させます。

ウェブアンロッカーは、ターゲットサイトへのフィンガープリントの適応を含むこれらすべてを完全に自動化します。ブラウザレベルでは、次のようなブラウザのフィンガープリントの模倣作業を実行します。

  • プラグイン、およびフォント
  • Canvas / webGLフィンガープリント
  • ヘッダー
  • Zombie、およびCookieの同期化
  • WebRTC
  • Web Audio APIフィンガープリント
  • クッキー管理

ウェブアンロッカーは以下も処理します。

  • ターゲットデバイスのフィンガープリントを無効にする
  • リアルタイムデバッグ

まとめ

「アンブロッカー」は名前が変更され、「ウェブアンロッカー」と呼ばれるようになりました。これは、同じテクノロジーとアルゴリズムによるアプローチを利用しています。ブライトデータのウェブアンロッカーは「ウェブアンブロッカー」と同じ製品ですが、解像度の点でアップグレードされており、その環境エミュレーションの範囲は、ネットワーク、プロトコル、ハードウェア/オペレーティングシステム、およびブラウザレベルのすべてのレベルに及びます。その再試行ロジック、CAPTCHA解決、およびフィンガープリント機能もさらに一歩進んで、独自のリーグになりました。

Aviv Besinksky
Aviv Besinsky | Product Manager

Aviv is a lead product manager at Bright Data. He has been a driving force in taking data collection technology to the next level - developing technological solutions in the realms of data unblocking, static proxy networks, and more. Sharing his data crawling know-how is one of his many passions.

あなたは下記にもご興味がおありかもしれません

Python web scraping guide

Pythonによるウェブスクレイピング – ステップバイステップガイド

Pythonを使ったウェブスクレイピングを学ぶことで、複数のウェブサイトから素早くデータを収集し、時間と労力の両方を節約できます。

Webスクレイピングに関する9の再認識すべきポイント

Webスクレイピングは、良心的な使用目的以外にも利用される可能性があるため、良くないイメージがあります。しかし、Web上に分散的に存在する価格、在庫、物件情報、ホテル空室情報などオルタナティブデータを効率的に取得するためにWebスクレイピングを正しく行うことで、商業的に様々なメリット、価値を得ることができます。同ブログでは、Webスクレイピングに関する通説に関して正し、データドリブンな意思決定に必要なデータソースのエンリッチメントに、同技術がどのように貢献することが可能かをご紹介いたします。
Web scraping with PHP

PHPによるウェブスクレイピング: ステップバイステップガイド

シンプルなPHPのウェブスクレイパーをゼロから簡単に作成し、プログラミングする方法を学びます。
solve_and_prevent_recaptcha

WebスクレイピングとCAPTCHA

ネットサーフィンをしていると、CAPTCHAと呼ばれるセキュリティ認証に遭遇することがあるでしょう。それは、アクセスしているのがロボットやボットではなく人間であることを確認するチェックで、「橋の写真を選んでください」のような要求がされ、ランダムに表示される画像の中から橋の写真だけをクリックする方式が一般的ではないでしょうか。

Javaを使用したウェブスクレイピングガイド

データ収集に最適な Java 環境を構築するために、どのサポートツールをダウンロードしたらよいかわかりませんか?HTML からデータポイントを抽出/解析し、CSV 形式に変換する方法がわかりませんか? この投稿は、レコードを整理するのに役立ちます。
What is alternative data

オルタナティブデータとは何か、どのように利用するか

投資会社は、ソーシャルメディア、検索エンジン、消費者の需要データを監視し、ポートフォリオ内の企業が言及されたときにリアルタイムでアラートを取得しています。その方法は以下のとおりです。
How Web Scraping in Microsoft Excel Works - A Detailed Guide

Microsoft Excel を使用したウェブスクレイピングのしくみ – 詳細ガイド

ここでは、Microsoft Excel ワークシートから直接ウェブベースのデータクエリーを実行する方法について、すばやく簡単に手順を紹介します。
How to set up a proxy server on Windows 10

Windows 10でプロキシサーバーを設定する方法

このガイドでは、Windows 10でプロキシサーバーを構成するために必要な手順を説明します。この手順には、プロキシを選択する際の重要なTipsだけでなく、スクリーンショットも含まれています。