リバースプロキシとは

リバースプロキシは、より効率的な暗号化ツールとして機能し、負荷分散の実現に役立つだけでなく、コンテンツをローカルにキャッシュし、データ消費者に迅速に配信できます。本記事はリバースプロキシーについての究極ガイドです。
1 min read
What is a reverse proxy

本記事では次の内容を取り上げます。

リバースプロキシーを定義できるか

リバースプロキシは、基本的に通常のプロキシにレイヤーを追加したものです。この外側の「クラスト」は、ウェブ側の顧客との最初の接点となるように、「内部ウェブサーバー」の上に設置されるサーバーです。外部サーバー(A)は、当該トラフィックが正当で無害なものであることを確認した後、内部サーバー(B)に転送します。例えるなら、サーバーのトラフィックを管理する警察官のようなもので、物事をスムーズに行えるようにするためのものです。

このように、上図ではサーバーAが、顧客の仲介役となり、サーバーBには実際にターゲット情報が格納されています。この事実は、「顧客」にはわからないことが多いので注意が必要です。要求されたデータはサーバーAにキャッシュされ、次回以降、要求者は、より容易に利用できるようになります。このアーキテクチャは、悪意ある攻撃や侵入からサーバーBを保護するのに役立ちます。基本的に、企業はさまざまな脅威からシステムやコンテンツを保護するために、高度なプロキシサーバーを使用しています。

リバースプロキシの特徴とは

他のタイプのプロキシと比較することで、リバースプロキシの特徴をより理解することができます。例えば、フォワードプロキシとリバースプロキシです。通常のプロキシ、または「フォワードプロキシ」は、「顧客」と「ターゲットサイト」の間の仲介役として機能します。リクエストが有効であることを確認し、有効でない場合は「エラーコード」または「リダイレクト」を要求者に提供します。その他の場合は、リクエストは処理され、希望する情報/応答が配信されます。

一方、SSLプロキシとは何かを理解することができます。SSLプロキシは、ファイアウォールの一種であるSRXシリーズ機器と連携して動作します。すべての受信トラフィックが現在適用されているSRXのセキュリティポリシーに一致することを確認します。送信トラフィックは暗号化され、受信トラフィックは復号化され、SSLプロキシとサーバーの両方を動作させます。

リバースプロキシ:利点とユースケース

ここでリバースプロキシーを利用する主な利点/ユースケースを紹介します。

暗号化ツールとしての機能

リバースプロキシは、サーバーへの負荷を軽減するために、送受信リクエストの暗号化/復号化(TLS、SSL)を支援するために設定できます。

キャッシュされたコンテンツを高速配信

コンテンツデリバリーネットワーク(CDN)の運用アーキテクチャと同様に、リバースプロキシは、ユーザーエクスペリエンスを向上させるために機能します。これは、要求されたデータポイントの最新バージョンを、顧客側のサーバーに一貫してキャッシュすることで実現できます。これにより、常にリクエストに応答し、情報を生成しなければならない内部サーバーの負担を軽減し、顧客が求める情報により迅速にアクセスできるようにします。

分散型ロードバランシング 

リバースプロキシは、1つの主サーバーを有するウェブサイトへのトラフィックの流れを調整するために機能します。複数のリバースプロキシーを利用することで、主サーバーの負担を軽減するとともに、並列サーバーに負荷がかかっているときに、その負荷を補うこともできます。さらに、リバースプロキシは、現地の顧客に地理的に近い場所に設置されているため、コンテンツやレスポンスをより迅速に提供できます。

プロキシをビジネスに活用したいとお考えですか?

あなたは下記にもご興味がおありかもしれません

Web Scraping with Java Guide_large
各種ご利用方法

Javaを使用したウェブスクレイピングガイド

このチュートリアルでは、Gradleプロジェクトをセットアップし、HtmlUnitの依存関係をインストールする方法を学びます。その過程で、HtmlUnitについて学び、その高度な機能のいくつかを詳しく見ていきます。
3 min read
What is a data parser featured image
ウェブデータ

データ解析とは?定義、利点、および課題

この記事では、データ解析について知っておくべきことをすべて説明します。データ解析とは何か、なぜそれが重要なのか、どのようにアプローチするのが最善かを解説します。
1 min read
What is a web crawler featured image
ウェブデータ

ウェブクローラーとは?

ウェブクローラーは、インターネットのインフラとして重要な部分を担っています。この記事では、以下の事項を説明します。 ウェブクローラーの定義 ウェブクローラーとは、インターネットをスキャンして、見つけたデータをダウンロードするソフトウェアロボットです。大半のウェブクローラーは、Google、Bing、Baidu、DuckDuckGoなどの検索エンジンによって運用されています。検索エンジンは、収集したデータに検索アルゴリズムを適用して、検索エンジンインデックスを作成します。このインデックスにより、検索エンジンはユーザーの検索クエリに基づいて、関連するリンクを提供できます。 過去の特定の時点のウェブサイトのスナップショットを提供するWay Back Machineのように、検索エンジンとは別の目的で使用されるウェブクローラーもあります。   ウェブクローラーの仕組み GoogleのGooglebotのようなウェブクローラーは、毎日、クローリングしたいウェブサイトのリストを作成して作業を開始します。これはクロールバジェットと呼ばれます。バジェットには、ページのインデックス作成に対する需要が反映されます。クロールバジェットに影響する2つの主な要因は、人気と陳腐化です。インターネット上で人気のあるURLは、インデックス内で最新の状態を保つために、より頻繁にクローリングされる傾向があります。また、ウェブクローラーはURLのインデックスが陳腐化するのを防ごうとします。 ウェブクローラーがサイトに接続すると、まずrobots.txtファイルをダウンロードして読み込みます。robots.txtファイルは、ロボットがウェブをクローリングし、コンテンツにアクセスしてインデックスを作成し、そのコンテンツをユーザーに提供する方法を規制するウェブ標準群であるロボット排除プロトコル(REP)の一部です。ウェブサイトの所有者は、サイト上でアクセスできるユーザーエージェントとアクセスできないユーザーエージェントを定義できます。また、robots.txtには、クローラーがウェブサイトに対して行うリクエストのペースを抑制するためのcrawl-delayディレクティブを定義することもできます。また、robots.txtには、サイトに関連するサイトマップも記載されているため、クローラーはすべてのページとその最終更新日時も確認できます。前回のクローラー訪問以降に変更がないページは、今回スキップされます。   ウェブクローラーは、クローリング対象のページに最終的に到達すると、そのページをブラウザーでレンダリングし、すべてのHTML、サードパーティーのコード、JavaScript、CSSを読み込みます。この情報は検索エンジンのデータベースに保存され、後でページのインデックス作成とランク付けに使用されます。また、ページ上のすべてのリンクもダウンロードします。検索エンジンのインデックスにまだ登録されていないリンクは、後でクロールするためのリストに追加されます。 robots.txtファイルに記載されているディレクティブへの準拠は任意です。ほとんどの主要な検索エンジンはrobots.txtディレクティブに従っていますが、そうでないものもあります。スパマーやボットネットなどの悪質業者は、robots.txtディレクティブを無視します。Internet Archiveのような合法的なウェブクローラーでさえ、robots.txtを無視しています。 ウェブクローラーの例 検索エンジンには複数の種類のウェブクローラーがあります。たとえば、Googleには17種類のボットがあります。 SEO対策にウェブクローラーが重要な理由 SEOの目標は、ユーザーが関連する検索語を検索したときに、自社のコンテンツが簡単に見つかるようにすることです。Googleは、コンテンツがクローリングおよびインデックス化されていない場合、コンテンツをどこにランク付けしたらよいかを知ることができません。 ウェブクローラーは、他の分野でも役立つことがあります。Eコマースサイトでは、競合他社のサイトをクローリングして、製品の品揃えや価格を分析することがよくあります。通常、この種のデータ収集は「ウェブクローリングではなくウェブスクレイピング」として知られています。ウェブスクレイピングは、特定のHTMLデータ要素に焦点を当てます。ウェブスクレイパーは非常に集中的であるのに対し、ウェブクローラーは広く網を張ってあらゆるコンテンツを収集します。ユーザーの側には、SERPデータのクローリングやスクレイピングを支援するSERP APIツールもあります。   ウェブクローラーが直面する課題 ウェブクローラーが直面する課題はいくつもあります。 課題 説明 robots.txtの制限 ウェブクローラがrobots.txtの制限に従う場合、特定のウェブページにアクセスできなかったり、任意の制限を超えるリクエストを送信できなかったりすることがあります。 IPの禁止 ウェブクローラーの中には、robots.txtの制限に従わないものもあるため、それらが他のさまざまなツールを実装してウェブクローリングを制限することがあります。ウェブサイトは、詐欺師が使用する無料データプロキシや特定のデータセンターのIPアドレスなど、悪意があることがわかっているIPアドレスを禁止することができます。 ジオロケーションの制限 一部のウェブサイトでは、ウェブサイトコンテンツにアクセスするために、特定の地域に居住していることを条件としています。たとえば、米国以外の地域からNetflix USAのコンテンツにアクセスしようとする場合です。地理的な制限の大半は、レジデンシャルプロキシネットワークを使用することで克服できます。   CAPTCHA 一部のウェブサイトでは、不審なソースからの大量のアクティビティを検出すると、リクエストの背後にいるのが本物の人間かどうかを確認するためにCAPTCHAを表示します。CAPTCHAはウェブクローラーの活動を阻害する可能性があります。多くのウェブスクレイピングソリューションは、この種のブロックを克服するためのツールや技術を備えています。これらのブロック解除ツールは、多くの場合、CAPTCHA解決ソリューションを利用します。   まとめ ウェブクローラーは、インターネットのインフラとして重要な部分を担っています。これにより、検索エンジンは検索インデックスを作成するために必要なデータを収集し、ユーザーのクエリに対して検索結果を提供できます。多くの企業は、調査を支援する役割としてのウェブクローラーに注目しています。実際には、多くの場合、Amazon、Adidas、Airbnbのリスティングのように、1つか2つのサイトに集中しています。このようなユースケースでは、Bright DataのウェブスクレイパーIDEのようなツールが、よりニーズに適しています。  
1 min read

More from Bright Data

Datasets Icon
Get immediately structured data
Access reliable public web data for any use case. The datasets can be downloaded or delivered in a variety of formats. Subscribe to get fresh records of your preferred dataset based on a pre-defined schedule.
Web scraper IDE Icon
Build reliable web scrapers. Fast.
Build scrapers in a cloud environment with code templates and functions that speed up the development. This solution is based on Bright Data’s Web Unlocker and proxy infrastructure making it easy to scale and never get blocked.
Web Unlocker Icon
Implement an automated unlocking solution
Boost the unblocking process with fingerprint management, CAPTCHA-solving, and IP rotation. Any scraper, written in any language, can integrate it via a regular proxy interface.

Ready to get started?