データ収集のためのウェブアンロッカー機能:ブラウザーフィンガープリント、自動ロック解除、CAPTCHAの解決方法

ブライトデータのウェブアンロッカーは、ネットワークレベルでのカスタマイズされたトランスポート層セキュリティ(TLS)ハンドシェイク、プロトコルレベルでのユーザーエージェント生成から完全なCookie管理、ブラウザレベルでのブラウザ指紋エミュレーションまで完全対応。難易度の高いサイトへも、容易にアクセスできるようになります。
Web Unlocker Used To Be Called Unblocker copy
Keiko Zeltzer (鎌田桂子) | Business Manager (ビジネスマネージャー)
09-Dec-2021

データ収集を行う作業で、サイト毎に異なる仕様からアクセス拒否問題をいかに効率良く対処していくか?オルタナティブデータの需要が増える中で、悩ましい問題です。

サイトロック解除を行うウェブアンロッカーは、以前はウェブアンブロッカーと呼ばれていました。その過程で製品にどのような改善が加えられたのか?同記事では、最新版のウェブアンロッカー の機能面をご紹介します。

より優れた自動ブロック解除機能

ウェブアンロッカーの環境模倣機能には次のものがあります。:

  • ネットワークの観点からウェブアンロッカーを調べると、IPタイプの選択から、必要に応じって実施されるIPローテーションまですべてを正確に処理することができます。
  • プロトコルレベルでは、ウェブアンロッカーは、デコード(つまり、要求の受信)プロセスとエンコード(つまり、応答の送信)プロセスの両方で、HTTPヘッダー管理をより効果的に実行することができます。さらに、より優れた「ユーザーエージェント生成」機能を備えているため、生成されたユーザーエージェントをターゲットサイトの要件に一致するように制限しながら、固有のブラウザーフィンガープリントプロパティを処理します。最後に、ウェブアンロッカーはHTTP2をサポートできるようになっています。つまり、サーバープッシュだけでなくHTTPヘッダーフィールドの圧縮もより効果的に処理できるのです。
  • ハードウェア(HW)オペレーティングシステム(OS)に関しては、ウェブアンロッカーは、特定のシステムに接続されているすべてのデバイスと、それらに関連するドライバー(つまり、完全なデバイス列挙の模倣)、マウスの動き、画面の解像度、およびさまざまなものをエミュレートできます。デバイスのプロパティ。

CAPTCHA認証の向上と解決

ウェブアンロッカーには、より優れたリクエスト管理機能があります。ターゲットサイトによって設定された新しい封鎖にリアルタイムで適応できるようになりました。機械学習(ML)、改善されたCAPTCHA解決、および再試行ロジックを使用して、最も効率的な(時間とリソースの両方の点で)データ取得パスを実現できます。

ウェブアンロッカー を強化するアルゴリズムは、理想的なフィンガープリント構成を使用し、ターゲットサイトから目的の応答/情報を取得しようとするようにトレーニングされています。 Webサイトが応答したとき、たとえば次のようになります。

  • 特定のIPからのリクエスト数に基づいてアクティビティを「疑わしい」として分類する(つまり、「レート制限」)
  • 「受け入れられない」ユーザーエージェント(「HTTP」など)の検出
  • ジオロケーションに基づいてリクエストをブロックする

ウェブアンロッカーは、この情報をリアルタイムで分析し、ユーザーに最高の成功率を提供する特定の/カスタマイズされた設定を使用して、ドメインごとに設定を再調整することができます。

改善されたフィンガープリント

「デバイスフィンガープリント」は、ウェブを閲覧するデバイスの一意のユーザー識別子です。フィンガープリントには、ユーザーのブラウザの構成とソフトウェア/ハードウェア環境に関する情報が含まれています。フィンガープリントの側面を理解することは、「Recaptcha」などの派生的な「症状」だけでなく、問題の根本を解決するため、ブロックを解除する上でおそらく最も重要な側面です。

この場合、手動でIPを変更していても、「簡単に」新しいセッションを開始できます。または、「HTML本文要素」ルールを作動させます。

ウェブアンロッカーは、ターゲットサイトへのフィンガープリントの適応を含むこれらすべてを完全に自動化します。ブラウザレベルでは、次のようなブラウザのフィンガープリントの模倣作業を実行します。

  • プラグイン、およびフォント
  • Canvas / webGLフィンガープリント
  • ヘッダー
  • Zombie、およびCookieの同期化
  • WebRTC
  • Web Audio APIフィンガープリント
  • クッキー管理

ウェブアンロッカーは以下も処理します。

  • ターゲットデバイスのフィンガープリントを無効にする
  • リアルタイムデバッグ

まとめ

「アンブロッカー」は名前が変更され、「ウェブアンロッカー」と呼ばれるようになりました。これは、同じテクノロジーとアルゴリズムによるアプローチを利用しています。ブライトデータのウェブアンロッカーは「ウェブアンブロッカー」と同じ製品ですが、解像度の点でアップグレードされており、その環境エミュレーションの範囲は、ネットワーク、プロトコル、ハードウェア/オペレーティングシステム、およびブラウザレベルのすべてのレベルに及びます。その再試行ロジック、CAPTCHA解決、およびフィンガープリント機能もさらに一歩進んで、独自のリーグになりました。

Keiko Zeltzer (鎌田桂子) | Business Manager (ビジネスマネージャー)

ロンドン大学東洋アフリカ学院修士課程卒。世界第2のシリコンバレーと呼ばれるイスラエル在住歴16年。これまで、オンラインゲーム、Eコマース、貿易業など数多くの分野のB2Bパートナーシップ、グローバルなプロジェクトマネジメント、カントリーマネージメントを経験。現在、Bright Data・ジャパンのメンバーとして、イスラエル本社より日々の営業活動に当たる傍ら、Bright Dataを活用した各業界のデジタルインサイトを広める啓蒙活動を行う。

あなたは下記にもご興味がおありかもしれません

solve_and_prevent_recaptcha

WebスクレイピングとCAPTCHA

ネットサーフィンをしていると、CAPTCHAと呼ばれるセキュリティ認証に遭遇することがあるでしょう。それは、アクセスしているのがロボットやボットではなく人間であることを確認するチェックで、「橋の写真を選んでください」のような要求がされ、ランダムに表示される画像の中から橋の写真だけをクリックする方式が一般的ではないでしょうか。
What is a proxy server & how does it work?

プロキシサーバーとは、その仕組みは?

このガイドでは、プロキシサーバーの「機能」、「現在利用できるプロキシの種類」、「プロキシとVPNの比較」など、貴社が適切なツールを選択できるよう、プロキシサーバーに関するあらゆる情報を網羅しています。
How to use Selenium for web scraping

Seleniumガイドを使用したウェブスクレイピング

10分以内にターゲットサイトからウェブデータの収集を開始してCSVファイルに結果を保存するために必要となる唯一の手順ガイドです。
What is a reverse proxy

リバースプロキシとは

リバースプロキシは、より効率的な暗号化ツールとして機能し、負荷分散の実現に役立つだけでなく、コンテンツをローカルにキャッシュし、データ消費者に迅速に配信できます。本記事はリバースプロキシーについての究極ガイドです。