PythonでGoogle 画像検索をスクレイピングする方法

セットアップから画像の保存まで、PythonとSeleniumを使ってGoogle 画像検索をスクレイピングするためのステップバイステップガイドです。
10 min read
How to Scrape Google Images blog image

Google 画像検索は、ウェブ上でスクレイピングするのが最も難しいサイトの一つです。このサイトはスクレイパーを明示的にブロックしているわけではないものの、データの取得は至難の業で、よほどデータが欲しくない限り諦めてしまうでしょう。

動的なCSSセレクタからBase64エンコーディングまで、Google 画像検索のスクレイピングは、通常のHTMLのスクレイピングと比べるとまるでパズルを解くようなものです。

前提条件

PythonでGoogle 画像検索をスクレイピングするには、PythonとSeleniumの基本的な知識が必要です。Seleniumのインストールが必須になります。必要に応じて、PythonとSeleniumを使ったWebスクレイピングについて詳しく学ぶことをお勧めします。

まず、ChromeDriverとChromeがインストールされていることを確認してください。最新バージョンはこちらからダウンロードできます。

ChromeDriverは、必ずお使いのChromeと一致するバージョンをダウンロードしてください。

以下のコマンドでChromeのバージョンを確認できます。

google-chrome --version

出力は以下のようなものになるはずです。

Google Chrome 131.0.6778.139 

これらを入手したら、pipでSeleniumをインストールできます。

pip install selenium

スクレイピングの対象

いきなりコードに取りかかるわけにはいきません。スクレイピングする対象とその抽出方法についてよく理解する必要があります。前述のとおり、Google 画像検索のスクレイピングはパズルを解くようなものです。

そこで、Googleの画像の一つを調べてみましょう。この画像はg-imgというカスタムHTMLタグに埋め込まれているため、これらのg-img要素をすべて見つける必要があります。

Google 画像検索で画像の検証

g-imgタグをすべて見つけたら、そのimg要素を抽出しなければなりません。以下のいずれかが表示されます。

img要素の検証

imgをよく見ると、非常に奇妙なことに気づくはずです。srcは一見ランダムに見える奇妙な文字列です。



この文字列の先頭(data:image/jpeg;base64,)がすべての鍵を握っています。jpegはこれがJPEGファイルであることを示し、base64はBase64でエンコードされていることを表しています。この文字列をデコードすると画像のバイナリが得られます。バイナリはWebページ内にあるため、画像の実際のソースを追跡することはできません。ただし、このバイナリをファイルに書き込んで画像を再作成することはできます。

PythonでGoogle 画像検索のスクレイピング

必要なものがわかったところで、いよいよスクレイパーのコーディングを始めましょう。次のいくつかのセクションでは、スクレイパーをまとめて、コードが何をするのかを詳しくご説明します。

始めましょう

新しいPythonファイルを作成します。まずは基本的なインポートと構造から始めましょう。

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()

"""
Our actual scraping logic will go here
"""


if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • SeleniumからwebdriverByをインポートします。webdriverはブラウザを制御するために使用されます。Byはページ上のアイテムの検索に使用されます。
  • sleepは、スクレイパーを一定期間停止するために使用します。たとえば、スクレイパーを1秒間待機させたい場合は、 sleep(1)を使用します。
  • ご想像のとおり、base64は画像バイナリをデコードします。
  • Pathは、結果を含むフォルダに画像を書き込むために使用されます。
  • options = webdriver.ChromeOptions()を使うと、Seleniumでカスタム設定を使用できます。これは主に、Seleniumをヘッドレスモードで実行するためです。ヘッドレスモードでは、マシン上で実際のブラウザをレンダリングせずにスクレイパーを実行できます。これにより、貴重なリソースを節約できます。

Google 画像検索のスクレイピング

次に、スクレイピング関数を作成します。以下のコードにはスクレイパー全体が含まれています。scrape_images ()に注目しましょう。

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()


def scrape_images(keyword, batch_size, headless=True):
    if headless:
        options.add_argument("--headless")

    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)

    result_count = 0

    driver = webdriver.Chrome(options=options)
    driver.get(f"https://www.google.com/search?q={formatted_keyword}")
    sleep(1)

    list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
    list_items[1].click()

    while result_count < batch_size:
        driver.execute_script("window.scrollBy(0, 300);")
        sleep(1)

        img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
        for img_tag in img_tags:
            src = img_tag.get_attribute("src")
            if not src or not src.startswith("data:image/"):
                continue

            base64_binary = src.split("base64,")[-1]
            mime_type = src.split(";")[0].split(":")[1]
            file_extension = mime_type.split("/")[-1]
            if file_extension == "gif":
                continue
            
            alt_text = img_tag.get_attribute("alt") or "image"
            filename = f"{alt_text}-{result_count}.{file_extension}"

            image_binary = base64.b64decode(base64_binary)
            output_path = output_folder.joinpath(filename)
            
            with open(output_path, "wb") as file:
                file.write(image_binary)
            result_count+=1
            print(f"Saved: {filename}")
            
    driver.quit()

if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • デフォルトではヘッドレスTrueに設定しています。ユーザーがこれをFalseに設定すると、画面に表示される実際のブラウザが起動します。これはデバッグに役立ちます。
  • 実際のキーワードからスペースを削除して、formatted_keywordfolder_nameを作成します。これで、問題なくファイルを保存できます。
  • webdriver.Chrome(options=options) でブラウザを起動します。
  • driver.get(f"https://www.google.com/search?q={formatted_keyword}") をクリックすると、 キーワードのGoogle検索結果が表示されます。
  • ここで、[画像]タブをクリックする必要があります。そのためには、listitemというロールを持つdiv要素をすべて検索します。list_items[1].click()は2番目の項目である[画像]タブをクリックします。
  • whileループを使用して、必要な画像がすべて見つかるまでスクレイピングコードを何度も実行します。
  • driver.execute_script("window.scrollBy(0, 300);")は、JavaScriptを実行してページを300ピクセル下にスクロールします。スクロール後、コンテンツが読み込まれる間、sleep()が1秒間スリープします。
  • driver.find_elements(By.CSS_SELECTOR, "g-img > img")は、g-img内にネストされているすべてのimgタグを検索するために使用されます。
  • 次に、見つかったimg項目を反復処理します。
  • imgdata:image/で始まらない場合は、continueを使用してスキップします。それ以外の場合は、そのsrc属性を取得します。
  • 基本的な文字列分割を使用して、エンコードされたバイナリとファイル拡張子(JPEG、PNGなど)を抽出します。拡張子がGIFの場合はスキップします。何らかの理由で、GIFはファイルに書き込んでも表示されません。
  • base64.b64decode(base64_binary)は、画像を実際の機械可読バイナリにデコードします。

このコードを実行すると、プロジェクトフォルダ内に新しいフォルダがポップアップ表示され、多数の画像があるはずです。

.pngファイルでいっぱいの結果フォルダ

Bright Dataの使用をご検討ください

当社のSERP APIはGoogle 画像検索を解析するため、ユーザーが解析する必要はありません。そのうえ、画像のメタデータも検出されるため、画像には実際の名前が付けられます。もちろん、このAPIは完全にスケーラブルで、膨大な数のリクエストに対応できます。

まず、当社のSERP APIにサインアップしてください。

準備ができたら、ゾーンの作成を完了します。

ゾーンの作成完了

[アクセスの詳細]に認証情報が表示されます。

SERP API 認証情報

以下のコードをコピーしてPythonファイルに貼り付けます。proxy_authの認証情報を自分のものに置き換えれば準備完了です。

import requests
import base64
from pathlib import Path
import json

proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"


def scrape_images(keyword):
    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"serp-results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)
    url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"

    response = requests.get(
        url,
        proxies={"http": proxy_url, "https": proxy_url},
        verify=False
    )

    images = response.json()["images"]

    result_count = 0
    for image in images:    
        image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
        title = image["title"].replace(" ", "-").replace("/", "").strip(".")
        file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
        if file_extension == "gif":
            continue
        filename = f"{title}.{file_extension}"

        with open(output_folder.joinpath(filename), "wb") as file:
            file.write(image_binary)
            print(f"Saved: {filename}")

if __name__ == "__main__":
    scrape_images("linux penguin")

このコードを実行すると、再び多数の画像が表示されますが、今回はすべてに名前が付いています。

SERP APIを使用した画像結果

まとめ

結論として、Googleから画像をスクレイピングするのは、ピースが揃っていないパズルを解こうとするようなものです。当社のGoogle 画像検索APIはメタデータを検出するため、Seleniumを使用する必要がなくなります。

他のソースから画像をスクレイピングする必要がある場合は、 Instagram 画像APIShutterstock Scraperのほか、さまざまな構造化データセットもご用意しています。今すぐサインアップして、無料トライアルを含め、ニーズに最適な製品を見つけましょう。

クレジットカードは必要ありません