Google フライトは、航空券の価格、スケジュール、航空会社の詳細などの豊富なデータを提供する、広く利用されているフライト予約サービスです。残念ながら、Googleはこのデータにアクセスするための公開APIを提供していません。ただし、Webスクレイピングを使えば、Google フライトのデータを抽出することができます。
この記事では、Pythonを使ってGoogle フライトの堅牢なスクレイパーを構築する方法を紹介します。各ステップを一つひとつ、順を追って明確に説明していきます。
Google フライトをスクレイピングする理由
Google フライトのスクレイピングには、次のような利点があります。
- 継続的にフライト料金を追跡
- 価格動向の分析
- フライトの予約に最適な時期を見極める
- 異なる日程と航空会社の料金を比較
旅行者にとっては、お得な情報を見つけてお金を節約することにつながります。企業にとっては、市場分析、競合情報、効果的な価格戦略の策定に役立ちます。
Google フライトスクレイパーの構築
当社が構築するスクレイパーは、出発空港、目的地、旅行日、航空券の種類(片道または往復)などの詳細を入力することができます。往復航空券を予約する場合は、帰国日も入力する必要があります。スクレイパーは、利用可能なすべてのフライトを読み込み、データをスクレイピングし、結果をさらに分析できるようJSONファイルに保存します。
Pythonを使ったWebスクレイピングに馴染みのない方は、こちらのチュートリアルをご覧ください。
1.Google フライトから抽出できるデータの種類
Google フライトでは、航空会社名、出発時刻と到着時刻、合計所要時間、経由地数、航空券の価格、環境影響データ(CO2 排出量など)といったさまざまなデータが提供されています。
スクレイピングできるデータの例は次のとおりです:
2.環境のセットアップ
まず、スクレイパーを実行する環境をシステムに構築しましょう。
Playwrightは、ブラウザの自動化や、Google フライトのような動的なウェブページとのやりとりを得意とします。Tenacityを使ってリトライ処理を実装します。
Playwrightを初めて使う場合は、必ずPlaywrightを使ったWebスクレイピングのガイドを確認してください。
3.データクラスの定義
Pythonのデータクラス
を使用すると、検索パラメータとフライトデータをきれいに構造化することができます。
ここで、SearchParameters
クラスは出発地、目的地、日付、チケットタイプなどのフライト検索の詳細を保存し、FlightData
クラスは航空会社、価格、CO2排出量、その他の関連情報を含む各フライトに関するデータを保存します。
4.FlightScraperクラスのスクレイパーのロジック
主なスクレイピングのロジックはFlightScraper
クラスにカプセル化されています。詳しい内容は以下の通りです。
4.1 CSS セレクタの定義
データを抽出するには、Google フライトページで特定の要素を見つける必要があります。これはCSSセレクタを使って処理します。以下は、FlightScraper
クラスでのセレクタの定義です:
これらセレクタは、航空会社名、フライト時間、所要時間、経由地、料金、CO2排出量データを対象としています。
航空会社名:
出発時刻:
到着時刻:
飛行時間:
経由地の数:
料金:
CO2e:
CO2排出量の変動:
4.2 検索フォームへの入力
_fill_search_form
メソッドは、出発地、目的地、日付の詳細を検索フォームに記入するシミュレーションを行います。
4.3 すべての結果を読み込み
Google フライトはページネーションを使ってフライトを読み込みます。利用可能なフライトをすべて読み込むには、「その他のフライトを表示」ボタンをクリックする必要があります:
4.4 フライトデータの抽出
フライトが読み込まれたら、フライトの詳細をスクレイピングできるようになります:
5.リトライ処理の追加
スクレイパーの信頼性を高めるには、tenacity
ライブラリを使用してリトライロジックを追加してください:
6.スクレイピングの結果を保存
今後の分析に備えて、スクレイピングしたフライトデータをJSONファイルに保存します。
7.スクレイパーの実行
Google フライトスクレイパーを実行する方法は次のとおりです:
最終結果
スクレイパーを実行すると、フライトデータは次のようなJSONファイルに保存されます:
完全なコードはGitHub Gistにあります。
Google フライトのスクレイパーをスケーリングする際の一般的な課題
Googleフライトのデータスクレイピングをスケーリングする場合、IPブロックやCAPTCHAのような課題に遭遇することはよくあります。たとえば、スクレイパーを使用して短時間で多くのリクエストを送信すると、ウェブサイトがIPアドレスをブロックする可能性があります。これを回避するには、手動のIPローテーションを使用するか、上位プロキシサービスのいずれかを選択します。自分のユースケースに最適なプロキシタイプがわからない場合は、Webスクレイピングに最適なプロキシに関するガイドをご覧ください。
もう1つの課題は、CAPTCHAの処理です。ボットトラフィックが疑われる場合、CAPTCHAが解けるまでスクレイパーをブロックするために、ウェブサイトはよくこれを使用します。手作業でこれを処理するのは時間がかかるし、複雑です。
では、解決策は何でしょう?詳しく見てみましょう。
解決策:Bright DataのWebスクレイピングツール
Bright Dataは、お客様のWebスクレイピング作業を簡素化し、効率的にスケーリングするために設計された様々なソリューションを提供しています。これらの一般的な課題を克服するために、Bright Dataがどのようにお役に立てるかを探ってみましょう。
1. 住宅用プロキシ
Bright Dataの住宅用プロキシは、洗練されたターゲットウェブサイトにアクセスし、スクレイピングする能力を提供します。住宅用プロキシを使えば正規の住宅用接続を介してWebスクレイピングリクエストをルーティングできます。住宅用プロキシを介して送信したリクエストは、特定の地域または地域の正規ユーザーからのものとして目的のウェブサイトに認識されます。そのため、IP制限を用いたスクレイピング対策がされているページへのアクセスに有効です。
2. Webアンロッカー
Bright DataのWebアンロッカーは、CAPTCHAや制限に直面しているスクレイピングプロジェクトに最適です。Webアンロッカーは、これらの問題を手動で処理する代わりに、サイトブロックの変化に適応して、高確率(通常は 100%)で、自動的に問題を解決します。1つのリクエストを送信するだけで、残りはWebアンロッカーが処理します。
3. スクレイピングブラウザ
Bright Dataのスクレイピングブラウザは、PuppeteerやPlaywrightのようなヘッドレスブラウザを使用する開発者にとって、もう一つの強力なツールです。従来のヘッドレスブラウザとは異なり、スクレイピングブラウザはCAPTCHAの解決、ブラウザのフィンガープリンティング、リトライなどをすべて自動的に処理するため、サイトの制限を気にすることなくデータ収集に集中できます。
まとめ
この記事では、PythonとPlaywrightを使用してGoogle フライトのデータをスクレイピングする方法について説明しました。手作業によるスクレイピングは効果的ではあるものの、IPのブロックや継続的なスクリプトメンテナンスの必要性といった課題が伴います。データ収集の取り組みを簡素化および強化するには、住宅用プロキシ、Webアンロッカー、スクレイピングブラウザなどのBright Dataソリューションの活用を検討してください。
今すぐBright Dataの無料トライアルにご登録ください!
さらに、Google 検索結果データ、Google Trends、Google Scholar、Google マップなど、他のGoogleサービスのスクレイピングに関するガイドをご覧ください。