このガイドでは、Scrapy Splashについて学びます:
- スクラップ・スプラッシュとは
- PythonでScrapy Splashを使用する方法をステップバイステップのチュートリアルで説明します。
- ScrapyのSplashを使った高度なスクレイピングテクニック
- このツールでウェブサイトをスクレイピングする際の制限事項
さあ、飛び込もう!
Scrapy Splashとは?
Scrapy Splashとは、これら2つのツールの統合を指す:
- Scrapy:ウェブサイトから必要なデータを抽出するためのPythonオープンソースクローリングフレームワークライブラリ。
- Splash: JavaScript を多用するウェブページのレンダリング用に設計された、軽量のヘッドレスブラウザ。
Scrapyのような強力なツールがなぜSplashを必要とするのか不思議に思うかもしれない。ScrapyはHTMLの解析機能(特にParsel)に依存しているため、静的なサイトしか扱えないからだ。しかし、動的なウェブサイトをスクレイピングする場合は、JavaScriptのレンダリングに対処する必要があります。一般的な解決策は、自動化されたブラウザを使うことであり、これこそが Splash が提供するものだ。
Scrapy Splashでは、SplashRequestと
呼ばれる特別なリクエストをSplashサーバに送信することができます。このサーバーはJavaScriptを実行することでページを完全にレンダリングし、処理されたHTMLを返します。そのため、Scrapy Spiderは動的なページからデータを取得することができます。
要するに、Scrapy Splashが必要なのは次のような場合だ:
- Scrapyだけではスクレイピングできないような、JavaScriptを多用するウェブサイトを扱っている。
- Seleniumや Playwrightに比べて軽量なソリューションを好む。
- スクレイピングのためにフルブラウザを実行するオーバーヘッドは避けたい。
Scrapy Splashがお客様のニーズに合わない場合は、以下の選択肢をご検討ください:
- Selenium:JavaScriptを多用するウェブサイトをスクレイピングするための本格的なブラウザ自動化機能で、Selenium Wireのような興味深い拡張機能を提供する。
- Playwright:オープンソースのブラウザ自動化ツールで、複数のプログラミング言語をサポートし、一貫したクロスブラウザ自動化と堅牢なAPIを提供します。
- Puppeteer:オープンソースのNode.jsライブラリで、DevToolsプロトコル経由でChromeを自動化・制御するためのハイレベルAPIを提供する。
PythonでScrapy Splash:ステップバイステップのチュートリアル
このセクションでは、ウェブサイトからデータを取得するためにScrapy Splashを使用する方法を理解します。対象となるページは、人気のある “Quotes to Scrape“サイトの特別なJavaScriptレンダリングバージョンです:
これは通常の “Quotes to Scrape “と同じだが、無限スクロールを使い、JavaScriptをトリガーとするAJAXリクエストによって動的にデータをロードする。
必要条件
PythonでScrapy Splashを使用してこのチュートリアルを再現するには、システムが以下の要件に一致する必要があります:
- Python 3.10.1以上。
- Docker 27.5.1以上。
この2つのツールがマシンにインストールされていない場合は、上記のリンクをたどってください。
前提条件、依存関係、および Splash との統合
プロジェクトのメインフォルダをscrapy_splash/と
呼ぶとします。このステップの最後に、フォルダは次のような構造になります:
venv/には
仮想環境が含まれます。venv/
仮想環境ディレクトリは次のように作成します:
アクティベートするには、ウィンドウズで以下を実行する:
同様に、macOSとLinuxでは、以下を実行する:
アクティベートされた仮想環境で、以下の方法で依存関係をインストールする:
最後の前提条件として、Docker経由でSplashイメージをプルする必要がある:
それからコンテナをスタートさせる:
詳細については、OSベースのDocker統合の説明に従ってください。
Docker コンテナを起動したら、Splash サービスが以下のメッセージをログに記録するまで待ちます:
このメッセージは、Splashがhttp://0.0.0.0:8050。
ブラウザでそのURLにアクセスすると、以下のページが表示されるはずです:
設定によっては、http://0.0.0.0:8050
URL に従っても Splash サービスが動作しない場合があります。この場合は、代わりに次のいずれかを使用してみてください:
http://localhost:8050
http://127.0.0.1:8050
注意: Scrapy-Splashを使用している間は、Splashサーバへの接続を開いたままにしておく必要があることを忘れないでください。つまり、CLIを使用してDockerコンテナを実行した場合は、そのターミナルを開いたままにしておき、この手順の次のステップでは別のターミナルを使用してください。
素晴らしい!これでScrapy Splashでウェブページをスクレイピングするのに必要なものが揃った。
ステップ #1: 新しいScrapyプロジェクトを開始する
scrapy_splash/
mainフォルダの中で、以下のコマンドを入力し、新しいScrapyプロジェクトを起動します:
このコマンドで、Scrapyはquotes/
フォルダを作成します。その中に、必要なすべてのファイルを自動的に生成します。これが結果のフォルダ構造です:
完璧だ!あなたは新しいScrapyプロジェクトを始めた。
ステップ2:スパイダーの生成
ターゲットウェブサイトをクロールする新しいスパイダーを生成するには、quotes/
フォルダに移動します:
そして、新しいスパイダーを生成する:
次のような結果が得られる:
お分かりのように、Scrapyは自動的にspiders/
フォルダの中にwords.py
ファイルを作成しました。words.py
ファイルには以下のコードが含まれています:
これにはすぐに、動的ターゲット・ページから必要なスクレイピング・ロジックが含まれる。
万歳!ターゲットのウェブサイトをスクレイピングするためにスパイダーを発生させたのだ。
ステップ3: ScrapyがSplashを使うように設定する
ScrapyがSplashサービスを使用できるように設定する必要があります。そのためには、settings.pyに
以下の設定を追加します:
上記のコンフィグでは
SPLASH_URLは
、ローカルのSplashサーバのエンドポイントを設定します。ここで Scrapy は JavaScript レンダリングのリクエストを送信します。DOWNLOADER_MIDDLEWARES
は、特定のミドルウェアが Splash とやりとりできるようにします。特に:Polylang プレースホルダは
SPIDER_MIDDLEWARES
は、同じ Splash 引数を持つリクエストが重複しないことを保証します。 これは、不要な負荷を減らし、効率を改善するために有用です。
これらの設定の詳細については、Scrapy-Splashの公式ドキュメントを参照してください。
良いことだ!これで Scrapy は Splash に接続し、JavaScript のレンダリングにプログラムで使用できるようになった。
ステップ4:JavaScriptレンダリング用Luaスクリプトの定義
Scrapy は Splash と統合して、このガイドの対象ページのように JavaScript に依存するウェブページをレンダリングできるようになった。カスタムレンダリングとインタラクションロジックを定義するには、Luaスクリプトを使用する必要があります。なぜならSplash は、JavaScript を介してウェブページと対話し、ブラウザの動作をプログラムで制御するためにLua スクリプトに依存しているからです。
具体的には、以下のLuaスクリプトをwords.pyに
追加します:
上のスニペットでは、script
変数に Splash がサーバー上で実行する Lua ロジックが含まれています。特に、このスクリプトは Splash に次のように指示します:
- メソッド
splash:go()
で定義された URL に移動します。 - メソッド
splash:html()
でレンダリングされた HTML コンテンツを返します。
上記のLuaスクリプトをWordsSpider
クラス内のstart_requests()
関数で使用します:
上記のstart_requests()
メソッドは、Scrapy のデフォルトのstart_requests()
をオーバーライドします。こうすることで、Scrapy SplashはLuaスクリプトを実行し、JavaScriptでレンダリングされたページのHTMLを取得することができます。Luaスクリプトの実行は、SplashRequest()
メソッドの"lua_source": script
引数を介して行われます。また、"execute"
Splash エンドポイントを使用していることにも注意してください (詳細は後ほど説明します)。
Scrapy Splash からSplashRequest を
インポートすることを忘れないでください:
これで、words.py
ファイルには、ページ上のJavaScriptでレンダリングされたコンテンツにアクセスするための正しいLuaスクリプトが装備されました!
ステップ#5:データ解析ロジックの定義
始める前に、ターゲットページの引用HTMLエレメントを検査し、パース方法を理解する:
.quoteで
見積もり要素を選択することができます。引用があれば、次のようになります:
.textからの
引用テキスト。.authorからの
引用者。.tagsの
引用タグ。
ターゲット・ページからすべての引用を取得するスクレイピング・ロジックは、以下のparse()
メソッドで定義できる:
parse() は
、Splash が返すレスポンスを処理します。詳細には
- CSS セレクタ
".quote"
を使って、quote
クラスを持つすべてのdiv
要素を抽出します。 各クォート
要素を繰り返し処理し、各クォートの名前、作者、タグを抽出します。
とても良い!Scrapy Splashのスクレイピング・ロジックは完成した。
ステップ6:すべてをまとめてスクリプトを実行する
これが最終的なwords.py
ファイルです:
このコマンドでスクリプトを実行する:
これが予想された結果だ:
望ましい結果は、このように視覚化することができる:
出力には目的のデータが含まれていることに注意。
Words``Spider
クラスからstart_requests()
メソッドを削除すると、Scrapyはデータを返さないことに注意してください。これは、SplashなしではJavaScriptを必要とするページをレンダリングできないからです。
とても良い!最初のScrapy Splashプロジェクトが完成しました。
スプラッシュについて
Splash は HTTP で通信するサーバーです。このため、Splash のエンドポイントを呼び出すことで、任意の HTTP クライアントを使用してウェブページをスクレイピングできます。Splash が提供するエンドポイントは次のとおりです:
- を
実行する
:カスタムLuaレンダリングスクリプトを実行し、その結果を返す。 render.html
:javascriptでレンダリングされたページのHTMLを返します。render.png
:javascriptでレンダリングされたページの画像(PNG形式)を返します。render.jpeg
:javascriptでレンダリングされたページの画像(JPEG形式)を返します。render.har
:Splash とウェブサイトのやりとりに関する情報を HAR 形式で返します。render.json
:javascriptでレンダリングされたウェブページに関する情報をJSONエンコードした辞書を返します。渡された引数に基づいて、HTML、PNG、その他の情報を含むことができます。
これらのエンドポイントがどのように機能するかをより理解するために、render.html
エンドポイントを考えてみよう。次のPythonコードでエンドポイントに接続します:
このスニペットはこう定義している:
render.html
エンドポイントを呼び出す URL として、localhost 上の Splash インスタンスを指定します。ペイロード
内でスクレイピングするターゲットページ。
上記のコードを実行すると、ページ全体のレンダリングされたHTMLが得られる:
SplashはJavaScriptでレンダリングされたHTMLを単独で扱うことができるが、Scrapy SplashとSplashRequestを
使うことで、ウェブスクレイピングがより簡単になる。
Scrapy Splash:高度なスクレイピング・テクニック
前の段落では、Splashを統合した基本的なScrapyチュートリアルを完了しました。Scrapy Splashを使った高度なスクレイピングテクニックを試してみましょう!
高度なスクロールの管理
ターゲット・ページには、無限スクロールのおかげでAJAX経由で動的にロードされる相場が含まれている:
無限スクロールとのインタラクションを管理するには、Luaスクリプトを以下のように変更する必要がある:
この修正スクリプトは、これらの変数に依存している:
max_scrolls
はスクロールの最大回数を定義します。この値は、ページからスクレイピングしたいコンテンツの量に応じて変更する必要があるかもしれません。scroll_toは
、毎回スクロールダウンするピクセル数を指定します。この値は、ページの動作によって調整する必要があるかもしれません。splash:runjs()
は、window.scrollBy()
JavaScript関数を実行し、指定したピクセル数だけページをスクロールさせます。splash:wait()は
、スクリプトが新しいコンテンツをロードする前に待機することを保証します。待つ時間 (秒単位) はscroll_delay
変数で定義します。
簡単に言うと、上記のLuaスクリプトは、無限スクロールのウェブページのシナリオで定義されたスクロール数をシミュレートします。
words.py
ファイルのコードは次のようになります:
以下のコマンドを使ってスクリプトを実行する:
クローラーは、max_scrolls
変数で一貫してスクレイピングされたすべての引用を表示します。これが期待される結果です:
出力には、以前よりもかなり多くの引用が含まれていることに注意してください。これは、ページが正常にスクロールダウンされ、新しいデータがロードされ、スクレイピングされたことを示している。
完璧だ!これでScrapy Splashで無限スクロールを管理する方法を学んだことになる。
エレメントを待つ
ウェブページは動的にデータを取得したり、ブラウザでノードをレンダリングしたりすることができる。これは、最終的なDOMのレンダリングに時間がかかる可能性があることを意味します。ウェブサイトからデータを取得する際のエラーを避けるためには、要素がページに読み込まれるのを常に待ってから、その要素を操作する必要があります。
この例では、待機する要素は最初の引用文のテキストになる:
待機ロジックを実装するには、以下のようにLuaスクリプトを書く:
このスクリプトは、text
要素がページ上にあるかどうかを0.2秒間待つwhile
ループを作成します。.text
要素がページ上にあるかどうかを確認するには、splash:select()
メソッドを使用します。
時を待つ
動的コンテンツのウェブページは読み込みとレンダリングに時間がかかるので、HTMLコンテンツにアクセスする前に数秒間待つことができます。これは、splash:wait() という
メソッドで実現できます:
この場合、スクリプトが待機しなければならない秒数は、SplashRequest()
メソッドでLuaスクリプトの 引数で表現される。
例えば、"wait" : 2.0と
すると、Luaスクリプトに2秒待つように指示する:
注:ハードウェイト(splash:wait()
)は、ページが確実にロードされてから処理を進めるので、ローカルテストには便利です。なぜなら、不必要な遅延が発生し、 パフォーマンスやスケーラビリティに悪影響を及ぼすからです。さらに、事前に適切な待ち時間を知ることはできません。
よくやった!あなたはScrapy Splashで一定時間待つ方法を学んだ。
Scrapy Splashを使用する際の制限
このチュートリアルでは、Scrapy Splashを使ってさまざまなシナリオでウェブからデータを抽出する方法を学びました。この統合は簡単ですが、いくつかの欠点があります。
例えば、Splash をセットアップするには、Docker を使って別の Splash サーバを実行する必要があり、スクレイピング・インフラに複雑さを加えることになる。さらに、SplashのLuaスクリプトAPIは、PuppeteerやPlaywrightのような最新のツールに比べるとやや限定的だ。
しかし、他のヘッドレス・ブラウザと同様、最大の制限はブラウザ自体にある。スクレイピング防止技術は、ブラウザが通常使用されているのではなく、自動化されていることを検知し、スクリプトをブロックすることができる。
スクレイピング・ブラウザは、無限のスケーラビリティのために設計されたクラウドベースのスクレイピング専用ブラウザです。CAPTCHA解決、ブラウザフィンガープリント管理、アンチボットバイパスを備えているので、ブロックされる心配はありません。
結論
この記事では、Scrapy Splashとは何か、どのように動作するのかを学びました。基本的なことから始めて、より複雑なスクレイピングシナリオを探りました。
また、このツールの限界、特にアンチボットやアンチスクレイピングシステムに対する脆弱性も発見されたことでしょう。これらの課題を克服するために、Scraping Browserは優れたソリューションです。これは、あなたが試すことができる多くのBright Dataスクレイピングソリューションの一つに過ぎません:
- プロキシ・サービス:1億5,000万以上の家庭用IPを含む、ロケーション制限を回避する4種類のプロキシ
- ウェブスクレーパーAPI:100以上の人気ドメインから新鮮で構造化されたウェブデータを抽出するための専用エンドポイント。
- SERP API:SERPのすべての継続的なロック解除管理を処理し、1つのページを抽出するAPI
今すぐBright Dataに登録し、無料トライアルを開始してスクレイピングソリューションをお試しください。
クレジットカードは必要ありません