データ収集を行う作業で、サイト毎に異なる仕様からアクセス拒否問題をいかに効率良く対処していくか?オルタナティブデータの需要が増える中で、悩ましい問題です。 サイトロック解除を行うウェブアンロッカーは、以前はウェブアンブロッカーと呼ばれていました。その過程で製品にどのような改善が加えられたのか?同記事では、最新版のウェブアンロッカー の機能面をご紹介します。
より優れた自動ブロック解除機能
ウェブアンロッカーの環境模倣機能には次のものがあります。:
- ネットワークの観点からウェブアンロッカーを調べると、IPタイプの選択から、必要に応じって実施されるIPローテーションまですべてを正確に処理することができます。
- プロトコルレベルでは、ウェブアンロッカーは、デコード(つまり、要求の受信)プロセスとエンコード(つまり、応答の送信)プロセスの両方で、HTTPヘッダー管理をより効果的に実行することができます。さらに、より優れた「ユーザーエージェント生成」機能を備えているため、生成されたユーザーエージェントをターゲットサイトの要件に一致するように制限しながら、固有のブラウザーフィンガープリントプロパティを処理します。最後に、ウェブアンロッカーはHTTP2をサポートできるようになっています。つまり、サーバープッシュだけでなくHTTPヘッダーフィールドの圧縮もより効果的に処理できるのです。
- ハードウェア(HW)とオペレーティングシステム(OS)に関しては、ウェブアンロッカーは、特定のシステムに接続されているすべてのデバイスと、それらに関連するドライバー(つまり、完全なデバイス列挙の模倣)、マウスの動き、画面の解像度、およびさまざまなものをエミュレートできます。デバイスのプロパティ。
CAPTCHA認証の向上と解決
ウェブアンロッカーには、より優れたリクエスト管理機能があります。ターゲットサイトによって設定された新しい封鎖にリアルタイムで適応できるようになりました。機械学習(ML)、改善されたCAPTCHA解決、および再試行ロジックを使用して、最も効率的な(時間とリソースの両方の点で)データ取得パスを実現できます。
ウェブアンロッカー を強化するアルゴリズムは、理想的なフィンガープリント構成を使用し、ターゲットサイトから目的の応答/情報を取得しようとするようにトレーニングされています。 Webサイトが応答したとき、たとえば次のようになります。
- 特定のIPからのリクエスト数に基づいてアクティビティを「疑わしい」として分類する(つまり、「レート制限」)
- 「受け入れられない」ユーザーエージェント(「HTTP」など)の検出
- ジオロケーションに基づいてリクエストをブロックする
ウェブアンロッカーは、この情報をリアルタイムで分析し、ユーザーに最高の成功率を提供する特定の/カスタマイズされた設定を使用して、ドメインごとに設定を再調整することができます。
改善されたフィンガープリント
「デバイスフィンガープリント」は、ウェブを閲覧するデバイスの一意のユーザー識別子です。フィンガープリントには、ユーザーのブラウザの構成とソフトウェア/ハードウェア環境に関する情報が含まれています。フィンガープリントの側面を理解することは、「Recaptcha」などの派生的な「症状」だけでなく、問題の根本を解決するため、ブロックを解除する上でおそらく最も重要な側面です。
この場合、手動でIPを変更していても、「簡単に」新しいセッションを開始できます。または、「HTML本文要素」ルールを作動させます。
ウェブアンロッカーは、ターゲットサイトへのフィンガープリントの適応を含むこれらすべてを完全に自動化します。ブラウザレベルでは、次のようなブラウザのフィンガープリントの模倣作業を実行します。
- プラグイン、およびフォント
- Canvas / webGLフィンガープリント
- ヘッダー
- Zombie、およびCookieの同期化
- WebRTC
- Web Audio APIフィンガープリント
- クッキー管理
ウェブアンロッカーは以下も処理します。
- ターゲットデバイスのフィンガープリントを無効にする
- リアルタイムデバッグ
まとめ
「アンブロッカー」は名前が変更され、「ウェブアンロッカー」と呼ばれるようになりました。これは、同じテクノロジーとアルゴリズムによるアプローチを利用しています。ブライトデータのウェブアンロッカーは「ウェブアンブロッカー」と同じ製品ですが、解像度の点でアップグレードされており、その環境エミュレーションの範囲は、ネットワーク、プロトコル、ハードウェア/オペレーティングシステム、およびブラウザレベルのすべてのレベルに及びます。その再試行ロジック、CAPTCHA解決、およびフィンガープリント機能もさらに一歩進んで、独自のリーグになりました。