mkdir ecommerce-scraping # This command creates a new directory named ecommerce-scraping.
cd ecommerce-scraping # This command navigates into the newly created directory.
python -m venv env # This command creates a new virtual environment in your project directory.
source env/bin/activate # This command activates the virtual environment.
from playwright import sync_playwright
auth = 'YOUR_ZONE_USERNAME:YOUR_ZONE_PASSWORD'
browser_url = f'wss://{auth}@YOUR_ZONE_HOST'
async def main():
async with async_playwright() as pw:
print('connecting')
browser = await pw.chromium.connect_over_cdp(browser_url)
print('connected')
page = await browser.new_page()
print('goto')
await page.goto('https://books.toscrape.com', timeout=120000)
print('done, evaluating')
# Find all the books in the article elements
books = await page.query_selector_all('article.product_pod')
# Extract and print each book details in a loop
async def get_book_details(book):
# Extract and print book name and price
book_name_element = await book.query_selector('h3 > a')
book_name = await book_name_element.get_attribute('title')
book_price_element = await book.query_selector('div.product_price > p.price_color')
book_price = await book_price_element.inner_text()
print(f'{book_name}: {book_price}')
# Use asyncio.gather() to execute all async calls concurrently
await asyncio.gather(*(get_book_details(book) for book in books))
await browser.close()
asyncio.run(main())
このチュートリアルでは、PlaywrightとBright Dataを使用して、Eコマースウェブサイトからデータをスクレイピングする方法を説明しました。このチュートリアルは、PlaywrightとBright Data Scraping Browserでできることのほんの一部を紹介したに過ぎません。Bright Data Scraping Browserは、高度なボット対策検出技術を使用するウェブサイトからのデータ収集をロック解除することに焦点を当てたプロキシブラウザソリューションです。この記事で取り上げた基本事項を組み合わせてより高度なワークフローを作り上げることで、プライスマッチ、市場分析、リードジェネレーションなどを自動化できます。