(2021年11月24日付にて英語版に投稿されている英語ブログポストの翻訳になります)
データ収集業界は活況を呈しており、過去数年の間に、真のビジネスニーズに対応するために、数十社に及びプロキシプロバイダーが誕生しました。ホワイトレーベルプログラム(いわゆる再販)の普及を考慮すると、まだ市場としてはこれからで歴史が浅く、新興企業の参入の障壁が低いという事実によって可能になりました。プロキシ業界で競争が活発化されることは顧客にとっては良いことですが、サービス全般の基準や品質管理の欠如は、利用者にとって失望と欲求不満につながる可能性があります。
弊社Proxywayでは、プロキシサービスを選ぶ際のテスト検証に多くの時間を費やしています。以下にて、個々のビジネスニーズを満たす信頼できるプロバイダーを選択するためのヒントをいくつかご紹介します。考えられるすべてのユースケースを網羅することは期待していません。十分に根拠のある決定を下すためのガイドラインを提供するためだけです。
この記事では、以下について説明します。:
- タスクに適したプロキシネットワークを特定化する
- 必要な機能を理解する
- プロキシサービスのネットワーク規模の大きさを知る
- 各プロバイダーが同じように機能するわけでは無いことを把握する
- カスタマーサービスを検証する
- プロキシネットワーク企業の企業倫理を検証する
タスクに適したプロキシネットワークを特定化する
プロキシプロバイダーを選択する最初のステップの1つは、必要なプロキシネットワークのタイプを対象プロバイダーが提供できるかどうかを判断することです。
プロキシネットワークにはいくつかの種類があり、それぞれに長所と短所があります。データセンタープロキシは高速で安価ですが、検出は比較的簡単にされてしまいます。一方、レジデンシャルプロキシの費用単価は高くなりますが、特定のインスタンスではパフォーマンスが低下するものの、同時に問題なくより多くのWebサイトにアクセスできるようになる場合があります。 ISPプロキシは、最初の2つの長所を組み合わせていますが、高価です。そして、モバイルプロキシは何よりもコストがかかります。ただし、IPレピュテーションが最も高く、モバイル優先のWebサイトへのアクセス処理を簡単に実行することができます。
また、適切なツールは、ユースケースによって異なります。最初にデータセンタープロキシから始めて、失敗した場合は、より高度なプロキシネットワークに移行することをお勧めします。ご参考までに、主要な検索エンジン、人気のあるEコマースや旅行/トラベル集約サイトは、データセンターのIPよりもレジデンシャルではるかに効率良く機能します。 Bright Dataは、最も効率的なプロキシネットワークタイプを決定するのに役立つプロキシウォーターフォールと呼ばれる便利な機能を提供しています。
Webスクレイピングインフラストラクチャーを簡素化されたい場合は、ウェブアンロッカーなどのプロキシIPベースのツールを検討してみましょう。プロキシIP単品よりもコストがかかる可能性がありますが、ウェブアクセス時のアクセス拒否に関する問題が解消され、より予測可能な結果を期待することができます。
必要な機能を理解する
次に、必要な機能の提供が可能なプロバイダーを探す必要があります。これは、IPローテーションやフィルタリングなどの機能からプロキシ管理ツールにまでに及びます。
例えば、特定の国のIPアドレスが必要な場合があります。プロバイダーは、その国のIPを含むプロキシプールを提供できますが、それらを排他的にターゲットにする方法はありません。これでは、すぐに問題に直面してしまいます。また、特定のインターネットサービスプロバイダーのASNからのみIPを取得することもできます。この機能は各種プロキシプロバイダー業者の中でも非常に稀であり、全てのプロバイダーがサポートしているわけではありません。
IPローテーションも同じように機能します。 Webスクレイピングの場合、接続要求ごとにローテーションするプロキシが必要になる可能性があります。逆に、一部のユースケースでは、複数のリクエストに対して同じアドレスを維持する必要があります。データセンタープロキシの問題ではなく、レジデンシャルIPとモバイルIPに関連する要素です。この機能をすぐに使用できるかどうか、できない場合は自分で設定できるかどうかを検討してください。
プロキシ管理ツールは別の懸念事項です。ブラウザ拡張機能のようなものは必須ではありません。複数の有能なサードパーティオプションから選択できます。ただし、プログラムによるプロキシ管理用のパブリックAPIは、プロバイダーのみが提供できるものです。そのため、一部のプロキシプロバイダーは、その点で取引成立/不成立を導く結果になる可能性があります。
プロキシサービスのネットワーク規模の大きさを知る
プロバイダーがさまざまな量のプロキシIP保有数を自社のベルトの下で宣伝広告していることに気が付かれたかもしれません。その数は、データセンタープロキシの場合の数千から、レジデンシャルIPの場合の数百万または数千万にまで及びます。プロキシネットワークのサイズは主にマーケティング上だけの話でしょうか?それとも実際に運用上、使用面に影響を与えるのでしょうか?率直に申し上げますと、ネットワークの規模の大きさは大変重要です。
データセンタープロキシを例にご説明すると、同ネットワークの落とし穴の1つは、サブネット(256個の関連付けられたIPアドレスのブロック)の問題です。ここでの計算は簡単です。プロキシネットワークが大きいほど、含まれるサブネットが多くなり、ユーザーの負荷分散と分散の柔軟性が向上します。
この問題は、居住地の住所ではさらに重要です。ピアツーピアのレジデンシャルプロキシは、実際の人々のつながりネットワークを利用します。これらのIPは、特定の基準を満たしている場合にのみプロキシベースのルーティングに使用できるため、1日中出入りします。表示される広告数は、月ごとの見積もりにすぎません。実際には、プロキシプールには、日常的に使用可能なIPがはるかに少なくなります。
今年の初めに、主要な住宅用プロキシプロバイダーに関する調査を実施しました。同じ数の接続要求が与えられた場合、それらのいくつかには10倍ものユニークIPがあることがわかりました。これは重要な数値です。大規模なネットワークではプロキシがクリーンになるだけでなく、どの地理的場所でも一定のIPアベイラビリティの確保が可能になります。
各プロバイダーが同じように機能するわけでは無いことを把握する
プロバイダーが特定の機能を提供しているかどうかを確認するのは比較的簡単です。ただし、プロキシネットワークのパフォーマンスとインフラストラクチャーを測定することは非常に困難です。
1つの方法は、契約締結前にサービスをテスト検証することです。プロキシネットワーク市場では、無料トライアルよりも返金保証を提供することを主に好みます。これは、潜在的なアビューズのテストに役立ち、抑止するのに役立ちます。ただし、一部のプレミアムプロバイダー(Bright Dataを含む)には、ビジネスクライアント向けの無料トライアルがあります。
別の方法は、特にパフォーマンステストを含む利用者の口コミ・レビューを読むことです。これは、潜在的な候補を絞り込むのに役立ちますが、落とし穴にも注意する必要があります。 1つは、考えられるすべてのユースケースについてプロキシネットワークを評価することは非常に困難です。プロバイダーは特定のターゲットに合わせてIPを調整でき、多くはWebスクレイピングの設定に依存します。データセンタープロキシの有限リストをテストすることは、レジデンシャルの住所の大規模なプールをベンチマークするよりも簡単です。それらは、ターゲットWebサイトで機能するかどうかのどちらかです。
考慮すべき他の非自明な要因があります。たとえば、バックコネクトプロキシ(「レジデンシャル」、「モバイル」、「ローテーション型」という言葉を含むもの)は、負荷分散サーバーを介して接続します。それらのセットアップと場所は、接続品質に影響を与えます。また、インフラストラクチャーが安定しているかどうかを確認するために、稼働時間のメトリックを要求する必要があります。
レジデンシャルプロキシネットワークの最新のテストでは、インフラストラクチャーの評価に重点を置いています。つまり、負荷分散サーバー、プロキシノード、そして最後にターゲットWebサイトに一貫して接続できるかどうかです。 Bright Dataは、99%以上の確率で成功した数少ないプロバイダーの1つでした。他のいくつかの選択肢は、10件のリクエストのうち1件から3件の間で失敗しました。これは、ドメイン保護メカニズムに遭遇する前のことです。
カスタマーサービスを検証する
プロキシネットワークはメンテナンスの多いリソースです。IPとサーバーは常に監視する必要があり、遅かれ早かれ問題が発生します。それが起こったとき、優れた顧客サービスはまさに黄金でその重さの価値がある可能性があります(現在の、金の現在の価格並みです!)。
しかし、何が優れた顧客サービスを構成するのでしょうか?ビジネスがプロキシIPに依存してデータの一定のストリームを配信する場合は、24時間年中無休の勤務時間が必須です。これは、夜間に問題が発生する可能性があるためだけでなく、別のタイムゾーン(たとえば、米国ではなくヨーロッパ)にいるのと同じくらい簡単な場合もあります。
理想的には、ライブチャット、Skype、または別の即時通信チャネルを介して技術チームに直接アクセスできる必要があります。私たちが発見したように、メールやチケットの返信には数時間かかることがあり、24時間体制のサービスの目的が損なわれます。もちろん、これはプロバイダーに大きく依存します。
アカウントマネージャーを持つことは、もう1つの大きなプラスです。営業時間中は、特定のニーズ、問題、およびビジネス目標に関する知識を備えた、主な連絡先になります。アカウントマネージャーは、単純なビジネスの取り決めを効果的に永続的で相互に有益な関係に変えます。
最後に、ドキュメントの形で提供される間接的なサポートを軽視しないでください。広範なヘルプドキュメントは、プロバイダーのカスタマーサクセスチームへの依存を大幅に強化し、軽減することができます。逆に、不完全なドキュメントや明らかに欠落しているドキュメントは、壊滅的な影響を与える可能性があります。最初にカスタマーサポートエージェントに連絡しないと、プロキシサーバーを適切にセットアップすることさえできない場合がありました。
プロキシネットワーク企業の企業倫理を検証する
倫理的なプロキシIPの取得と使用は、ホットボタンのトピックになっています。レジデンシャル及びモバイルプロキシネットワークに目を向けると、実際の、時には無意識のユーザーが関与するため、二重にそうなります。
倫理的なプロキシ処理には、IPの取得と使用の2つの部分が含まれます。最初の部分である取得は、プロバイダーがプロキシIPを調達する方法を決定します。主な方法には、アプリ内SDK、直接の金銭交換、場合によってはマルウェアの修正が含まれます
エンドユーザーがインターネット接続へのアクセスに同意し、見返りとして何かを得ることが重要です。そうしないと、会社はボットネットサービスを効果的に使用することになり、その過程で常にシャットダウンして評判を損なうリスクがあります。
2番目の部分であるプロキシネットワークの使用は、それらが提供できる目的を定義します。プロキシサーバーは、広告詐欺、クレジットカードの盗難、電子メールスパム、およびその他の違法行為への関与から依然として不名誉を持っています。これは、ブランド保護や市場調査などの合法的な使用を損ない、業界全体に影を落とします。
プロバイダーがブラックハット活動の制御に失敗または拒否した場合、一方のクライアントは広告詐欺に同じプロキシネットワークを使用でき、もう一方のクライアントは広告の検証を実行しますが、皮肉なことになります。繰り返しになりますが、そのようなサービスに依存することは、あなたの会社に倫理的および評判上の危険をもたらします。
まとめ
信頼性の高いプロキシネットワークを見つけることは非常に難しいことですが、個々のデータのニーズを理解し、意思決定プロセスでカスタマーサービスの充実度を検証のポイントの中で優先させてみましょう。そして最後に重要なこととして、長期的に利害関係者のために得られた価値を維持する倫理的なビジネス慣行を採用するデータネットワークプロバイダーを選択されることをお勧めします。