Pythonを使ってCAPTCHAをバイパスする方法

PythonでCAPTCHAをバイパスするためのトップテクニックとベストツールを探り、CAPTCHAソリューションを自動化する方法を学びましょう。
2 min read
How to bypass CAPTCHAs with Python

このチュートリアルでは以下について説明します:

  • CAPTCHAとは
  • Pythonで自動化できるか否か
  • CAPTCHAバイパス Pythonソリューションを評価する際に留意すべき点
  • PythonでCAPTCHAをバイパスするためのテクニックトップ5
  • 選りすぐりのPythonCAPTCHAソルバー

さっそく始めましょう!

CAPTCHA:定義と種類

CAPTCHAは、「コンピューターと人間を区別するための完全自動公開チューリングテスト」の略で、人間のユーザーとボットを区別するためにWebページ、アプリ、またはソフトウェアに埋め込まれた課題です。通常、人間には解決が簡単ですが、自動化されたソフトウェアには難しいタスクが含まれます。 

CAPTCHAの目標は、自動システムがウェブサイトやサービスにアクセスしたり、それらとやり取りしたりするのを防ぐことです。特に最近のAIとニューラルネットワークの進歩により、それらを効果的に保つことはますます困難になっています。そのため、アンチボットチャレンジはより複雑になっています。 

では、現在使用されている最も一般的なCAPTCHAの種類を見てみましょう。

文字認証CAPTCHA

テキストベースのCAPTCHAは、CAPTCHAの最も伝統的な形式です。これにより、ユーザーが正しく識別して入力する必要のある歪んだ文字列や数字が表示されます。自動ボットの課題は、歪んだテキストや不明瞭なテキストの認識に苦労することが多いことです。

これらの種類のCAPTCHAは、ボットによる解決が容易になり、人気も低下しています。

画像認識CAPTCHAs

画像ベースのCAPTCHAでは、ユーザーが一連の画像内の特定のオブジェクトまたはパターンを識別する必要があります。ほとんどの場合、ユーザーに画像のグリッドが表示され、信号機、自転車、バス、オートバイなど、特定のオブジェクトを含むすべての画像をクリックする必要があります。

これらのCAPTCHAの人気プロバイダーは reCAPTCHAです。

音声認証CAPTCHA

サウンドベースのCAPTCHAは、視覚でのCAPTCHAが苦手なユーザー向けのアクセシビリティオプションとして一般的に提供されています。これらのCAPTCHAは歪んだ音声のオーディオクリップを提供するもので、ユーザーはそれを聞いて正しく書き起こす必要があります。

パズル型CAPTCHA

パズル型CAPTCHAは、シンプルなパズルを解いて自分が人間であることを証明するようにユーザーに求めます。これらのパズルは、ジグソーパズルからロジックベースの課題まで多岐にわたります。たとえば、ユーザーは画像を正しい位置にドラッグしたり、ビジュアルパスの末尾にドットを配置したりする必要があります。

パズル型-CAPTCHA-例

これらのクリエイティブなCAPTCHAを提供している有名プロバイダーはAWS WAF CAPTCHAhCaptchaです。

Pythonを使用してCAPTCHAを自動化することは可能ですか?

CAPTCHAは自動化が難しいように特別に設計されており、Pythonでそれらを解決する簡単なソリューションはありません。しかし、次の2つの方法のいずれか、または両方で自動化を試みることはできます。

  • CAPTCHAの回避:アンチボットの注意を引かないように、制御されたブラウザでの人間の行動を現実世界のフィンガープリントで模倣し、CAPTCHAが発生する可能性を減らします。
  • CAPTCHA解決サービスに依存:CAPTCHAの課題を解決するためにAI、高度な自動化ツール、および/または人間の労働者を使用するプレミアムオンラインサービスにCAPTCHAを外部委託します。

これら2つの方法を実行するのに必要なツールは?Python CAPTCHAソルバーおよび/またはバイパスソリューション!

CAPTCHAバイパスPythonソリューションを評価する際に考慮すべき側面

市場で最も優れたCAPTCHAバイパスPythonサービスを比較する際に、検討すべき主な要素は次のとおりです。

  • 機能:ソリューションが提供する特徴と機能。
  • 性質:ツールがオープンソースかプレミアムか。
  • 稼働時間:プロバイダーが保証している、稼働状態である時間の割合。
  • 成功率:CAPTCHAの課題を解決する能力。パーセンテージで表示。
  • CAPTCHAバイパス戦略:ソリューションがCAPTCHAを回避するのか、解決するのか、あるいはその両方か。
  • サポートされているCAPTCHAプロバイダー:サービスを処理できるすべての CAPTCHAプロバイダー一覧。
  • Trustpilotスコア:Trustpilotにユーザーが残したレビューの平均スコア。
  • 価格:PythonCAPTCHAソルバーのコスト。

PythonでのCAPTCHAバイパス:アプローチのトップ5

ここで、PythonでCAPTCHAをバイパスするための上位5つのソリューション一覧を見てみましょう。上記の基準に基づいて選択およびランク付けされています。

1.Web UnlockerのCAPTCHAソルバー

Bright DataのCAPTCHA Solverページ

CAPTCHA Solverは、多数のプロバイダーからのCAPTCHAをシームレスにバイパスするソリューションで、Bright Dataが提供しています。このツールは、人間のような行動やブラウザフィンガープリントを模倣してCAPTCHAを回避し、AIを活用したアルゴリズムを活用してCAPTCHAを解決します。

CAPTCHA SolverはWeb Unlockerの一部です。Web Unlocker はオールインワンのウェブロック解除APIで、以下の機能を備えています。

  • IPローテーション:検出とブロックを避けるため、IPアドレスを動的に変更します。
  • 自動再試行:自分へのリクエストを複数回再試行して、確実に成功するようにします。
  • JavaScriptレンダリング:データ抽出にJavaScriptを使用して動的サイトを処理します。
  • グローバルカバレッジ:地理的にどこからでもローカライズされたコンテンツにアクセスできます。
  • 高いスケーラビリティ:大規模なデータスクレイピングをサポートします。
  • 参照ヘッダー:実際の参照ヘッダーを設定して、信頼できるサイトからのトラフィックをシミュレートします。
  • Cookies処理:Cookie関連の要因によるブロックを避けるためにクッキーを管理します。

APIとして、Web Unlocker with CAPTCHA Solver には、Pythonを含むあらゆるプログラミング言語での任意のブラウザーオートメーションまたはHTTP クライアントからアクセスできます。Web Unlockerを使用してCAPTCHAS をバイパスする方法をご覧ください。

これらの機能により、CAPTCHA SolverはPythonでCAPTCHAをバイパスするための最適なソリューションとなっています。無料でお試し、または利用可能なプランのいずれかを購入できます。CPMあたり3ドル(API呼び出しあたり0.003ドル)からご利用いただけます。請求されるのはリクエストが成功した場合のみです。99%という驚異的な成功率のおかげで、それはほとんどすべてに当たります。

これらのソリューションのおかげで、Bright Dataは中断や制限を受けることなく、効率的かつ倫理的なウェブスクレイピングを実践できるようになりました。

  • 機能:CAPTCHA解決、アンチボットバイパス、ブラウザフィンガープリント管理、プロキシ統合によるIPローテーション、自動リクエスト再試行、自動ユーザーエージェントローテーション、クッキー処理、参照ヘッダーの自動設定、ワールドワイドな地理的カバレッジ、JavaScriptレンダリング、データ整合性検証など
  • 性質:任意のプログラミング言語のあらゆるHTTPクライアントと統合できるプレミアムクラウドウェブロック解除API
  • 稼働時間:99.9%
  • 成功率:99.9%
  • CAPTCHAバイパス戦略:ユーザーエミュレーションとフィンガープリント管理によるCAPTCHA 回避 + CAPTCHA解決
  • サポートされている CAPTCHAプロバイダー:reCAPTCHA、Click Captcha、hCaptcha、PerimeterX、SimpleCaptcha、FunCaptcha、Cloudflare Turnstile、AWS WAF Captcha、GeeTest CAPTCHA、KeyCAPTCHA、Puzzle Captcha、Yandex Captcha、Image Captcha、Text Captcha、その他
  • Trustpilotスコア:4.5/5
  • 価格:無料体験の利用可能、その後CPMあたり3ドル

2.Stealthプラグイン付きPlaywright Extra

Playwright Stealthプラグイン

Playwright Extraは、人気のブラウザ自動化およびウェブスクレイピングツールであるPlaywrightの特別バージョンで、プラグインをサポートしています。詳しく言うと、playwright-stealthはPlaywright Extra用のPythonプラグインで、自動ブラウザがアンチボットメカニズムによって検出されにくくなります。 

Puppeteer Extra Stealth Pluginに影響され、Playwright Stealthは一部のブラウザ設定を上書きして、より本物らしく見えるようにしています。最終目標は、CAPTCHAやその他のアンチボットを回避することです。Playwright Stealthを使用してボット検出を回避する方法に関するガイドご確認ください。

PlaywrightでCAPTCHAをバイパスする方法に関するチュートリアルをご覧ください。 

  • 機能:完全なブラウザオートメーション API、JavaScriptとPythonのサポート、アンチボットバイパス、E2E テストAPI、プラグインサポート、デバッグ機能、その他
  • 性質:オープンソース
  • 稼働時間:該当なし
  • 成功率:不明
  • CAPTCHAバイパス戦略:ユーザーエミュレーションと実際のフィンガープリント設定によるCAPTCHAの回避
  • サポートされているCAPTCHA プロバイダー:基本的なアンチボット CAPTCHA
  • Trustpilotスコア:該当なし
  • 料金:無料

3.AntiCaptcha

アンチCAPTCHAサービスの画像

AntiCAPTCHAはよく知られているCAPTCHAバイパスサービスで、2007年から営業しています。幅広いCAPTCHA解決サービスを提供しており、すべてWebエンドポイント経由でアクセスできます。このプロバイダーは、堅牢な API、シームレスなブラウザプラグイン統合、SeleniumやPuppeteer などの自動化ツールのサポートを特徴としています。

CAPTCHAはすべて人間の作業員によって解決され、公式ライブラリから入手できる複数のプログラミング言語に統合されています。具体的には、 python-anticaptchaがPython用のAntiCaptchaソリューションです。なお、ライブラリの最終リリースは2022年で、無料体験は提供されておらず、成功率は非公開です。

  • 機能:CAPTCHA解決、自動CAPTCHA解決用のブラウザプラグイン、有用な統計やレポートを取得するためのAPI 
  • 性質:PHP、Python、Java、C#、JavaScript、Go、Ruby 用のプレミアムCAPTCHAバイパスAPI
  • 稼働時間:99.99%
  • 成功率: 非公開
  • CAPTCHAバイパス戦略:人間の作業者によるCAPTCHA解決
  • サポートされているCAPTCHA プロバイダー:Generic Image CAPTCHA、reCAPTCHA v2、reCAPTCHA v3、reCAPTCHA Enterprise v2/v3、hCaptcha、GeeTest、Arkose Labs、Cloudflare Turnstyle
  • Trustpilotスコア:4.8/5
  • 価格:CPMあたり0.50ドル~2ドル

4.SeleniumとStealth Library

Selenium Stealth Library

Seleniumは、テストや ウェブスクレイピングに広く使用されている強力なブラウザ自動化ツールです。ブラウザを自動化し、ユーザーの行動を模倣するための一貫性のある完全なAPIを提供します。ただし、Seleniumはブラウザの設定方法が原因で、アンチボット技術によって検出されることがよくあります。

selenium-stealthは、Seleniumをよりステルス性に優れたものにするために特別に設計されたPythonパッケージです。このライブラリでは、Chromeがほとんどの検出を回避するように設定されているため、複数の自動化タスクでよりスムーズな自動化と高い成功率を実現できます。Selenium Stealthの一般的な使用例の1つは、PythonでCAPTCAをバイパスすることです。

PythonでSeleniumを使ってCAPTCHA をバイパスする方法 に関するチュートリアルで詳細をご覧ください

  • 機能:完全なブラウザの自動化API、アンチボットバイパス、E2E テストAPI、その他
  • 性質:オープンソース
  • 稼働時間:該当なし
  • 成功率:不明
  • CAPTCHAバイパス戦略:ユーザーエミュレーションと実際のフィンガープリント設定によるCAPTCHAの回避
  • サポートされているCAPTCHA プロバイダー:基本的なアンチボット CAPTCHA
  • Trustpilotスコア:該当なし
  • 料金:無料

5.2 CAPTCHA

2Captchaサービスの画像

2Captchaは、CAPTCHAバイパスプロセスを自動化するために設計された人間ベースのCAPTCHA解決サービスです。幅広い課題に対応し、リアルタイムで解決してくれる人間の労働者にCAPTCHAを配布することで機能します。 

2CaptchaはAPI 統合を提供し、さまざまなプログラミング言語用の公式ライブラリを利用できます。具体的には、Python CAPTCHAバイパス用の2Captchaパッケージは2captcha-pythonです。

プロバイダーはいかなる種類の無料テストや試用期間を提供していませんのでご注意ください。したがって、そのサービスをテストしたい場合は、少なくとも1ドルを入金する必要があります。さらに、Trustpilotに懸念すべきレビューがいくつかあり、成功率と稼働時間は非公開です。

  • 機能:CAPTCHA solving
  • 性質:Python、PHP、Java、C++、C#、Go、Ruby 用のプレミアム CAPTCHA バイパス API
  • 稼働時間:非公開
  • 成功率: 非公開
  • CAPTCHA バイパス戦略: 人間の作業者を介したCAPTCHA解決
  • サポートされているCAPTCHA ロバイダ:Generic CAPTCHA、Generic Text CAPTCHA、Generic Click CAPTCHA、Generic Rotate CAPTCHA、reCAPTCHA V2 Callback、KeyCAPTCHA、reCAPTCHA V2 Invisible、Capy Puzzle CAPTCHA、Cloudflare Turnstile、Amazon CAPTCHA、Audio CAPTCHA、MTCaptcha, DataDome CAPTCHA、CyberSiARA CAPTCHA、Cutcaptcha、Friendly CAPTCHA、Russian CAPTCHA、Chinese CAPTCHA、Number CAPTCHA、Math CAPTCHA、Slider CAPTCHA、Tencent Captcha、atbCAPTCHA
  • Trustpilotスコア:4.0/5
  • 価格:CPMあたり0.50ドル~50ドル

最も優れたPython CAPTCHA Solver

以下の表は、上位の Python CAPTCHAソルバーソリューションが提供するものをまとめたものです。

サービス 特徴 プログラミング言語 稼働時間 成功率 CAPTCHA回避 CAPTCHA解決 レビュースコア 無料体験 料金
Bright Data CAPTCHA Solver 豊富 任意 99.9% 99.9% ✔️ ✔️ 4.5/5 チェックマーク CPMあたり3ドル
Playwright Stealth 多数 Python、JavaScript 非公開 ✔️ 無料
AntiCaptcha 少数 Python、PHP、Java、C#、JavaScript、Go、Ruby 99.99% 非公開 ✔️ 4.8/5 cross mark CPMあたり0.50ドル~2ドル
Selenium Stealth 多数 Python 非公開 ✔️ 無料
2Captcha ほとんどなし Python、PHP、Java、C++、C#、Go、Ruby 非公開 非公開 ✔️ 4.0/5 cross mark CPMあたり0.50~50ドル

まとめ

この記事では、CAPTCHAが自動化ソフトウェアにとって課題となる理由を探り、CAPTCHAの自動化がPythonで実現可能かどうかを検証しました。また、上位のPython CAPTCHAソルバーソリューションの一覧も紹介しました。

ここで強調したとおり、 Web Unlockerは、どのWebページからでもCAPTCHAなしのHTMLを取得するためのブロック解除APIとして非常に優れています。このスクレイピングAPIは、ブラウザーのフィンガープリンティングを処理し、自動再試行を提供し、プロキシを統合してリクエストごとに出口IPをローテーションします。また、CAPTCHA解決も処理します。PythonでCAPTCHAを自動化するのがこれまでになく簡単になりました!

面倒な作業を完全に省きませんか?データセットマーケットプレイス をチェックして、無料サンプルをダウンロードしてください。今すぐ登録して無料体験を開始しましょう。

クレジットカードは必要ありません