Bright Data ウェビナーハブへようこそ

最新のウェビナー、ワークショップ、コーディングセッションを
チェックしてください。 

ウェビナー
コンプライアンスと倫理
Webデータ収集
AIトレーニング向け
月間ハイライト
11月
ロニー・シャリット
コンプライアンス・倫理担当最高責任者 @Bright Data
ウェビナー
Bright Dataを使用した旅行データ収集のスケーリング
「旅行データへのアクセスは果てしなく続く障害物迷路のように感じるかもしれませんが、適切なツールがあれば、実用的な情報への明確な道筋になります。ロックを解除することさえできれば、データはすぐそこにあります」 – Rafael Levy、シニアソリューションアーキテクト みなさん、こんにちは。Bright DataのシニアソリューションアーキテクトのRafael Levyです。最近のウェビナーを見逃した方も、おさらいするのでご心配なく。ウェビナーでは、当社のテクニカルアカウントマネージャーの1人であるAriel Venturaとともに、企業が旅行データの収集のスケーリングという課題をどのように克服できるかについて、深く掘り下げて解説しました。 旅行データのスクレイピングは大変な作業です。旅行業界は、ボットのブロックが最も徹底されている業界の1つです。しかし、リアルタイムのデータを収集していなければ、手探りで経営しているようなものです。価格は常に変化するため、競争力を維持するには、競合他社の動きを常に正確に把握する必要があります。 ウェビナーで学んだ重要な点を、実際のセッションで行われたように、シンプルで実用的な形でまとめてみましょう。 旅行業界のデータに関する課題 旅行データのスクレイピングでは、次のような課題に直面します: このような課題を抱えているのは、御社だけではありません。 解決策: Bright DataのScraping Browser 当社のScraping Browserは、これらの問題の解決に特化して開発されています。これはクラウドベースのブラウザで、強力なボット対策システムを導入しているサイトでも、大規模なスクレイピングを簡単に行うことができます。 例えるなら、旅行データ収集用の「簡単ボタン」のようなものです。面倒な設定も、何時間ものトラブルシューティングも必要ありません。そして最も重要な特徴は、問題なく動作する点です。 Scraping Browserがこれほど効果的な理由 このツールの主な画期的な機能について見てみましょう: 実際のデモ: うまく動作する仕組み ウェビナーでは、スカイスキャナーでライブテストを行いました。まず、Scraping Browserを使わずにサイトをスクレイピングしてみました。最適化された設定(住宅用プロキシ、適切な位置情報など)でも、ほぼ瞬時にCAPTCHAが表示されました。 次に、Scraping Browserに切り替えました。すると、CAPTCHAを難なく回避してサイト内をナビゲートし、いとも簡単に必要なフライトデータをすべて収集してくれました。 これは1度だけではなく、Booking.comのような他のスクレイピングが困難なプラットフォームでも、同様の結果が見られました。Scraping Browserは最も困難なサイトにも対応できるように設計されているので、データの使用という重要な側面に集中できます。 Scraping Browserを使用する主なメリット このツールで得られるメリットは、次のとおりです: CAPTCHAの解決(さらには回避) CAPTCHAはすべてのスクレイパーにとって悩みの種です。しかし、Scraping Browserで私が特に気に入っているのが、人間の行動を非常に巧みに真似るため、大抵CAPTCHAを回避できるという点です。 万が一CAPTCHAに直面したとしても、大した問題ではありません。Scraping BrowserはさまざまなCAPTCHAを自動的に解決できます。reCAPTCHAやhCaptcha、さらには煩わしい「クリックアンドホールド」による人間であることの検証にも対応しています。 スケーリングも朝飯前 ウェビナーでは、Booking.comをスクレイピングする50の並行ブラウザセッションを使ってデモを行いました。プロセス全体がスムーズかつ高速で、効率的に行われました。500、さらには5,000のセッションを実行する場合でも、Scraping Browserなら難なく可能です。 ローカルリソースを使い果たしてしまったり、複雑なサーバー設定を管理したりする心配はもうありません。 Bright Dataを選ぶ理由 旅行データのスクレイピングが難しいことは、十分理解しています。そのため、プロセスの手間を省くためにScraping Browserを開発しました。お客様には次の理由で、Scraping Browserをお気に入りいただいています: お試しください 旅行データをスクレイピングしている、またはスクレイピングを検討しているなら、Scraping Browserを試してみない理由はありません。トライアルにサインアップしてテストし、違いをご自身の目でお確しかめください。 もうこれなしにはスクレイピングできなくなるでしょう。 — Rafael LevyBright […]
40:29 分視聴
チュートリアル
Webスクレイピングで直面する最大の問題とその修正方法
Webスクレイピングとは、単なるデータの抽出ではなく、動的ウェブサイトを巧みに操作し、禁止を回避して、混乱を実用的インサイトに変える作業を指します。この方法さえマスターできれば、無限の力を手にすることができるのです。フォレスト・ナイト(DevNotes 創設者) Webスクレイピングの現実:経験から得た教訓 みなさん、こんにちは!私の名前はフォレストです。この数年間で、私は非常に多くのWebスクレイピング作業を行いました。それはまさしく長い旅のようでした。403 Forbiddenエラーとの戦いから、予期せぬCAPTCHAに対処したり、IPを完全にブロックされてしまったりなど、すべてを体験しました。経験者であれば、これらのことがどれだけ大変であるかが分かるでしょう。しかし、時間が経過するにつれ、私はこれらの問題に対処するための戦略を身につけました。最も重要なのは、倫理的かつ法的に(この部分に注意してください)作業を行うことです。 それでは、「Webスクレイピングとは何か」から始め、私が直面した課題、そして実装したソリューションについて、順を追って説明いたします。初級者の方であるか、スキルの向上を目指す方であるかを問わず、この記事がお役に立つことでしょう。 Webスクレイピングとは何か、そしてこれを行うべき理由 まずは、基本から学びましょう。Webスクレイピングは、ウェブサイトからプログラムによりデータを抽出するプロセスです。サイトにリクエストを送信し、必要なデータを取得および解析してから、これを目的に応じ使用します。 例として、私はDevNotesというニュースレターを経営しており、そこでソフトウェアエンジニアリングとコンピューターサイエンスに関する記事をキュレーティングしています。ウェブサイト間を移動して手動でリンクをコピーする代わりに、私はリンクをスクレイピングするスクリプトを作成しました。必要なコンテンツが抽出され、すべてを1ヵ所にまとめることができるため、何を含めるかを決めるのに役立ちます。 他にも実際の使用例はありますか?価格比較のための商品データの収集や、株価のモニタリング、さらにはニュース記事の心理分析にも使用することができます。企業は、意思決定やプロセスの自動化、そして億単位での節約や収益のため、データを必要としています。Webスクレイピングが貴重なスキルとなるのは、このためなのです。 現代におけるウェブ技術の課題 厄介となるのはこの部分です。今日におけるウェブサイトは、かつてのようなものではありません。昨今のサイトは動的で、多くの場合、シングルページアプリケーション(SPA)で構築されているか、Ajaxを使用してコンテンツの読み込みを行っています。必要なデータが常に最初のHTMLに含まれるとは限らないことが、スクレイピングを非常に困難にします。 YouTubeを例に考えてみましょう。コメントやおすすめの動画にスクロールすると、移動するにつれてこれらが動的に読み込まれていくことに気付くはずです。スクレイパーにとって、これは悪夢であるといっても過言ではありません。すべてのデータを一度に取り込むのではなく、スクロールやクリックをシミュレートし、データの読み込みをトリガーするスクリプトが必要となります。 これは、どのように修正することができるのでしょうか。SeleniumやPlaywright、Puppeteerなどのツールを使用することで、まるで実際のユーザーのようにウェブサイトを操作することができます。これらのツールをスクリプト化して、コンテンツの読み込みを待機したり、Ajax呼び出しをトリガーしたりすることができます。それでもまだ十分でない場合、私はScraping Browserのようなプラットフォームを使用して、動的コンテンツが正しくレンダリングされることを確認します。 スクリプトの最適化、エラー処理、およびその場での対応 大規模なスクレイピングプロジェクトを扱う場合、ずさんにコードを書いている余裕はありません。私自身、このことを経験から学びました。AmazonやWalmartのように規模の大きいウェブサイトでは、予告なく構造が変化する可能性があります。これはつまり、次のことを計画する必要があることを意味します。 これらの手順は、スクリプトの実行を円滑にするだけでなく、将来的にも使用できるようにします。修正に費やす時間を減らすことで、本当にやりたいことに多くの時間を費やせるようになります。 アンチスクレイピング保護への対処 アンチスクレイピング対策も厄介となります。大規模なウェブサイトからデータをスクレイピングしたことがある方なら、おそらくIP禁止やCAPTCHA、またはレート制限に直面したことがあるでしょう。多くのサイトは賢く、リクエストの送信が速すぎる場合や、同じIPから送信されている場合、これを認識します。 では何が解決策となるのでしょうか。答えは、プロキシです。しかし、どんなプロキシでもいいわけではありません。IPのローテーションプールを備えたAI主導型のプロキシ管理が必要となります。これにより、リクエストが分散され、ウェブサイトがスクレイパーを検出しにくくなります。また、リクエストのレートを動的に調整し、人間の動作をシミュレートする必要があります。ここで、インテリジェントなレート制限アルゴリズムが役に立ちます。 私はこれにBright Dataのツールを使っています。これらのツールでは、195ヵ国、を超えるIPがローテーションされています。個人の力ではとても敵わないでしょう。 スクレイピングしたデータをどうするか データのスクレイピングは、最初のステップに過ぎません。次の問題は、取得したデータをどうするかということです。私は、次のように対処を行っています。 設定がすべて完了したら、分析を実行したり、TableauやPower BIなどのビジネスインテリジェンスツールにデータを入力したりすることができます。 倫理および法律に関する事項 現実的に考えると、Webスクレイピングの法的立ち位置はやや曖昧です。データが公開されているからといって、すべてを好きなようにスクレイピングしていいというわけではありません。スクレイピングを始める前に、必ず法律やプラットフォームの利用規約に違反していないことを確認しましょう。 また、不法行為とサイトの利用規約違反には違いがあります。例として、ログインせずに公開データをスクレイピングすることは、それがサイトのルール違反となっても、完全に合法である可能性があります。とはいえ私は弁護士ではありませんので、こちらに関しては参考程度にお読みください。合法性がはっきりと分からない場合、詳しい方に相談してみてください。 安全を期すため、私はコンプライアンスの確保を徹底したツールを使っています。例として、Bright Dataは、倫理的なWebスクレイピングを目的としたトラストセンターを設けています。これにより、すべてが公正であることが確認されるため、心配事が1つ減ります。 まとめ Webスクレイピングとは、データ抽出を目的とした単なるスクリプトの記述ではありません。それは、課題を乗り越え、ワークフローを最適化し、すべての作業を倫理的に実行することを指すのです。スクレイピングが個人的なプロジェクトであろうと、ビジネス目的によるものであろうと、重要なのは、適応性と効率性を保つことです。 Webスクレイピングの旅を進むうえで、このガイドがお役に立つことを願っています。何か新しいことを学んだり、これが役に立ったと思うことがあったら、ぜひとも私にお知らせください。もちろん、ただ娯楽としてお読みになったとしても、それはそれで結構です。それでは、幸せなスクレイピングを。次回もよろしくお願いいたします。
15:01 分視聴
インスピレーションを得る

必要なデータは、
をクリックするだけで入手可能です。