Scrapyプロキシの統合
Scrapyとは
ScrapyはWebクローリングとスクレイピングのためのPythonフレームワークで、これを使用するとウェブサイトから構造化データを抽出できます。オープンソースかつ高速で拡張可能です。Scrapyはデータマイニング、モニタリング、自動テストなど、さまざまな目的に使用できます。
ScrapyとBright Dataプロキシの統合
任意のIDEでScrapyプロジェクトを新規作成し、コマンドラインに次のように入力します:
scrapy startproject
これにより、プロジェクト名の付いたフォルダーが新規作成されます。そのフォルダーでPythonファイルを開きます。
- Bright Dataのコントロールパネルに移動し、[プロキシとスクレイピングインフラ]アイコンをクリックします
- [追加] をクリック、ネットワークタイプを選択、プロキシを設定、[保存]をクリックしてプロキシゾーンを新規作成します
- プロキシゾーンの[アクセスパラメータ]タブの下に、[ユーザー名]と[パスワード]の値が表示されます。
- Scrapyのスパイダーコードファイルの、リクエストのメタパラメータで、以前の[USERNAME]と[PASSWORD]の値を使用して、[proxy]値を「http://USERNAME:[email protected]:33335」に設定します
- 例:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
yield request
def parse(self, response):
print(response.body)
次に、コマンドラインで次のコマンドを実行します:
scrapy runspider
ScrapyでBright Dataプロキシマネージャーを使用する方法
- 上記の直接統合と同様にプロキシゾーンを作成
- Proxy Managerをインストール
- [新しいポートを追加]をクリックし、あなたのユースケースに合わせて設定します
- Scrapyのスパイダーコードファイルの、リクエストのメタパラメーターで[proxy]値を「http://IP:PORTNUMBER」に設定します。
- ローカルホストIPは127.0.0.1です。これは、プロキシマネージャーをマシンにインストールしている場合に使用する値です。プロキシマネージャーが外部サーバーにインストールされている場合、そのサーバーのIPアドレスを入力します
- プロキシマネージャーで作成されるポートは24XXXです。たとえば、24000です。これはデフォルトの最初のポート番号です
- 例:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://127.0.0.1:24000"
yield request
def parse(self, response):
print(response.body)
Scrapyのプロキシを取得
受賞歴のあるプロキシネットワークを搭載
72百万以上の住宅用IPアドレス、クラス最高のテクノロジー とターゲットにする能力 国、都市、運送業者、ASN プレミアムプロキシサービスを開発者にとって最高の選択肢にします
あらゆるニーズに対応するプロキシタイプ
レジデンシャルプロキシ
- 7,200万を超えるIP
- 195カ国で利用可能
- ローテーションに対応する最大級のリアルピアIPネットワーク
- 洗練されたウェブサイトすべてにアクセスしてクローリング
業界No.1のカスタマーエクスペリエンス
どんなニーズにも対応
毎日新機能をリリース
年中無休グローバルサポート
必要な時にサポートします
完全な透明性
リアルタイムのネットワークパフォーマンス ダッシュボード
専任のアカウント
マネージャー
マネージャー
パフォーマンスを最適化する
ニーズに合わせたご提案
お客様のデータ収集目標を満たします
プロキシとデータ収集の分野における業界トップ
毎日650TBの公共データが収集されている
毎日新機能をリリース
世界有数の大学10校のうち7校にサービスを提供
4.6/5トラストパイロット評価