ScrapeCon 2024
データ収集の未来、今ここに
ScrapeConに参加できなかった方へ。ご安心ください、こちらで対応いたします!
ScrapeCon Recap: Watch Now
公開ウェブデータの現状
ウェブデータはあらゆる場所で活用されています。AIの革新を後押しし、ほぼすべての業界における現代のビジネスを形作っています。しかし、ウェブデータの公開性には常に疑問が投げかけられています。ビッグテックがこの資産をますます独占し、規制当局によって対立するアプローチが取られる中、公開データは私的な宝物へと変貌しようとしているのでしょうか?
Bright DataのCEOであるOr Lenchner氏は、2024年以降のウェブデータ収集の現状に深く切り込み、ウェブスクレイピング事業の拡大における現在の課題と機会を明らかにすることで、本カンファレンスの幕を開けます。 本セッションでは、以下の点を解説します: – ビッグテックの支配は、ウェブデータのアクセス性と活用にどのような影響を与えているのか? – 規制アプローチが対立する状況下で、こうしたジレンマはパブリックデータの将来にどのような影響を及ぼすのか? – ウェブスクレイピング事業は、変化し続ける課題の中でどのように適応し、繁栄していくことができるのか?クラウドネイティブのスクレイピングを簡単に
この限定製品デモで、Bright Dataプラットフォームの最新ツールを紹介し、クラウドベースのウェブスクレイピングの未来を探ります。
自動スケーリングインフラやアンブロッキング技術とシームレスに統合されたスクレイパーの構築・運用方法をご紹介します。複雑なスクレイピングやスケーリングタスクの管理の手間を省き、効果的なビジネスソリューションの構築に集中しましょう。 効率的で合理化されたスクレイピング運用を求めるプロフェッショナルにとって、必見のセッションです。 本セッションでは、以下の内容をご紹介します: – ハイブリッドモデルが、オンプレミスとクラウドベースのスクレイピングの利点をどのように融合させるか? – スクレイピングAPIが、スケーラビリティを向上させ、信頼性と費用対効果のバランスをどのように実現するか? – メンテナンスを最小限に抑え、将来を見据えたスクレイパーを構築する方法とは?スクレイピング戦略の解読:構築、購入、それともAPI?
スクラッピング作業に最適なアプローチを決定しましょう。スクレイパーを一から構築するか、既製のデータセットを購入するか、あるいはスクラッピングAPIを活用するかなど、選択肢を検討してください。
ご自身の技術スタックに最適なツールを検討し、特定の技術が過剰になり得るタイミングを評価し、現在のスクレイピング手法の全体像を把握しましょう。 本セッションでは、あらゆるスクレイピングシナリオに対応した明確な意思決定フレームワークを提供し、ScrapeOpsを最適化するための情報に基づいた選択を確実に行えるようにします。 本セッションでは、以下の内容について学びます: – ScrapeOpsとは何か、そしてウェブスクレイピングをより効率的、安定的、かつリスクフリーにするためにどのように役立つのか? – 最適なツールを選択し、技術スタックに統合して、ウェブスクレイピングプロジェクトの効率を高める方法とは? – スクレイピング運用を簡素化することが、なぜビジネスにとって画期的な変化をもたらすのか?AIのためのデータの未来:法的課題と運用上の課題のバランス
AIのためのウェブデータ収集に取り組む開発者が直面する、法的および運用上の課題について掘り下げます。
開発チームが法的コンプライアンスと運用効率の適切なバランスを取りながら、情報に基づいた意思決定を行えるよう支援する実践的なフレームワークを学びます。 ベテランの開発者であっても、ウェブスクレイピングが初めてであっても、AIプロジェクトを自信を持って推進するための貴重な知見を得ることができます。 本セッションでは、以下の内容について解説します: – ウェブデータ収集は、データに含まれる潜在的なバイアスにどのように対処し、軽減できるか? – ウェブから収集したデータを使用してAIモデルをトレーニングする際、どのような法的側面を考慮すべきか? – 多様なデータ収集において、チームはどのようにしてプライバシー規制への準拠を確保できるか? – 運用効率を維持するために、どのようなツールやフレームワークが有効であることが実証されているか?AIによるインサイトからLLMのトレーニングまで
データセットの作成からAIを活用したインサイトの活用まで、実践的な旅に出ましょう。
AIの目的に合わせたデータセットの厳選、ルールやカスタム検証による正確性の確保、そしてデータセット活用の実例紹介まで、私たちと一緒に学びましょう。 初心者でも経験者でも、このステップバイステップガイドでAI向けデータセットの活用スキルを向上させることができます。 この実践的なセッションでは、以下の内容を扱います: – データセットの選定:AIの目的に沿ったデータセットを選びます。 – 精度の確保:ルール、データ型、カスタム検証を適用し、データセットの整合性を確保します。 – 実用例:データセットの実際の活用事例を紹介します。 – Snowflakeとの統合:データセットをSnowflakeに効率的に統合します。 – インサイトの導出:特定のユースケースに向けたAIを活用したインサイトを抽出します。 – LLMのトレーニング:構造化データをLLMモデルに投入し、最適なトレーニングを行います。信頼性の高いデータセットを構築するための青写真
信頼性の高いデータセットの作成は、単にデータを収集するだけではありません。その品質、構造、そして適応性を確保することが重要です。
AIを活用したスキーマ作成を取り入れ、最適な整理と効率化を実現しながら、データセットを綿密にキュレーションするための高度な手法と戦略をご紹介します。 本セッションでは、以下の内容を取り上げます: – AIを活用したスキーマ作成:データ構造、設定、パラメータの定義。 – サンプルレビュー:データサンプルをレビューするための体系的なアプローチ。 – データセットの更新とエクスポート:データセットを更新するための手法と、さまざまなエクスポート方法。 – データ検証:データの正確性と一貫性を保証するためのルールの設定。 – 変更への対応:ウェブサイトの構造変更に適応するための戦略。 – 再解析手法:柔軟性を高めるためにデータを再分析・調整する方法。『エグゼクティブ・プレイブック』
トップクラスの技術幹部による、深く、率直で、 価値ある議論を最前列で体験してください。
彼らは、大規模なデータ収集に関連する実務上の課題と解決策を共有します。 主要企業が、規制の変更、倫理的ジレンマ、そしてAIがプロセスに与える影響にどのように対処しているかを発見してください。 当社の最高顧客責任者(CCO)が司会を務める本セッションでは、技術幹部や研究開発リーダーに対し、 公開ウェブデータ収集業務を強化するための実践的な知見と実証済みの戦略を提供します。 パネルディスカッションの主な質問は以下の通りです: – なぜウェブデータは貴社にとってミッションクリティカルな存在であり、それをどのように活用して業務上の優位性や競争優位性を獲得しているのでしょうか? – ウェブデータ収集業務はどのように機能しており、時間とともにどのように進化してきましたか?社内対応と外部委託のソリューションについて、どのようにお考えですか? – ウェブデータ収集リソースに関する意思決定の枠組みはどのようなものですか?(総予算、インフラコスト、人員、ツール、データ品質保証などを考慮して) – 現在、データ収集において直面している主な課題は何ですか? – 公開データと他のデータソースをどのように統合、あるいは並置していますか? – ウェブデータ収集の取り組みにおいて、これまでに特定の課題や障害に直面したことはありますか?もしある場合、どのように対処しましたか? – 収集するウェブデータの品質と関連性を最大限に高めるために、効果的だと感じたベストプラクティスや戦略はありますか?クリックからキャプチャへ:スクレイパーのためのブラウザ操作の習得
大規模なスクレイピングプロジェクトに向けた、ブラウザ自動化の最新技術に迫ります。
このセッションは、ブラウザ操作を必要とするスクレイピングプロジェクトを運用する開発者にとって必見です。 このハンズオンセッションでは、以下の内容を学びます: – インフラストラクチャの概要:サーバー設定、ブラウザ設定、プロキシ管理など、多段階スクレイピングに必要な構成要素を理解します。 – API実演:Puppeteer、Playwright、Seleniumを使ったスクレイパーを改善し、複数ブラウザの扱いを学びます。 – 実践的な応用:eコマース向けのPuppeteerスクリプトを作成し、Node.jsを使用し、CheerioでHTMLをパースします。 – デバッグとコスト管理:Chrome DevToolsを使ったデバッグを行い、運用コストを管理する戦略を学びます。IPブロックやCAPTCHAを超えて
高度なボット対策技術がもたらす最新の課題と、それらを克服するための最新の手法について深く掘り下げます。
ネットワークパフォーマンスの最適化やスタティックIPによる課題の克服に関する実演を交えながら、スクレイパーの構築とトラブルシューティングをリアルタイムでご覧いただけます。 多様なプロキシネットワークの長所と短所を評価し、最も厳しいウェブサイトのブロックに対処するために設計された強力なツールを発見しましょう。 エンジニア向けに設計されたこのセッションでは、戦略的な洞察と実践的なコーディング、ライブデモがシームレスに融合しています。 基礎から学ぶ: ブロックの種類:さまざまなブロックの種類とその仕組みを理解します。 単純かつ一般的なブロック:IP禁止やレート制限について掘り下げ、それらを素早く回避する方法を学びます。 高度なブロック:CAPTCHA、アンチボットソフトウェア、Cloudflare、その他の課題とその解決策を探ります。 適切なプロキシ製品の選択:様々なプロキシネットワークの長所と短所を評価します。 ライブコーディング:スクレイパーの構築と修正 シングルクロール対1,000件バッチのデモ:様々なシナリオにおける各ネットワークのパフォーマンスを観察します。Node.jsを使用し、 データセンタープロキシとレジデンシャルプロキシで単一のリクエストを送信し、 両ネットワークの成功率を実演します。 また、スタティックIPを使用する際の課題や、ローテーションIPであっても1,000件のリクエスト送信時に問題が発生し得る点についても解説します。 特殊なブロックや厳しいブロック対策ツール:困難なウェブサイトブロックに対処するツールを紹介します。 SERPスクレイピング。 ライブデモ:多数のエラーから100%の成功率への移行を実演します。 Cloudflareテストデモ。最初の依頼から最終的な分析まで
業界をリードする開発者やデータ専門家たちが登壇する、活気あふれるライブパネルディスカッションに参加し、ウェブデータプロジェクトの全容を紐解きましょう。 専門家の洞察、実践的な戦略、そして開発者ならではのユーモアを織り交ぜた内容です。
主な議論のポイント: – ウェブデータ収集の基礎:効率的なウェブスクレイピングに最適な言語、フレームワーク、ツールについて深く掘り下げます。 – ウェブサイトブロック解除の極意:堅牢なスクレイピング手法を学び、課題を理解し、実証済みの回避策を発見します。 – データ分析の深掘り:データベースの最適化、データ準備、そして説得力のあるデータストーリーテリングに関するヒントをご紹介します。 – AIを活用したテクニックの解明:スクレイピングにAIを統合し、最先端のAIツールでデータ分析を高度化します。結び
ウェブデータは、AIの革新を牽引し、現代のビジネスを形作る原動力です。 しかし、ビッグテックがこの資産をますます独占し、規制当局によって対立するアプローチが取られる中、 公共データが私的な宝物へと変貌しようとしているのでしょうか? 当社のCEOがカンファレンスの幕開けとして、2023/2024年のウェブデータ収集の現状に深く切り込み、 現在の課題と機会を明らかにします。
本セッションでは、以下の点について解説します: – 2024年、これまでと同じ方法(あるいはそもそも)でデータをスクレイピングできるのか? – 関連規制が進化する中、2024年のデータ収集にどう取り組むべきか? – スクレイピング業務を再定義する、2024年に期待できる画期的な技術や製品とは? 本セッションには、Or氏に加え、世界最大のAI・MLコミュニティであるKaggle.comの共同創業者兼元CEOであるAnthony Goldbloom氏、およびThe Norton Law Firmのパートナーであり、インテルコーポレーションのアジア太平洋・日本担当副社長兼ゼネラルカウンセルを歴任したJo Levy氏が登壇します。両氏は、 。彼らは共に、LLMの未来について深く掘り下げ、ChatGPTのような基盤となるAIモデルが普及する時代におけるデータスクレイピングを取り巻く複雑な法的環境を解説します。スピーカー
マイクの向こう側にいるスタッフをご紹介します。

Bright Data 最高経営責任者(CEO)

ノートン法律事務所(
)のパートナー、ノートン法律事務所

楽天 プロダクト・
デザイン担当ディレクター

Bright Data プロキシ製品担当ディレクター

創業者兼ソフトウェア開発者、
、Python Simplified

Bright Data、CCO

Ixigo、
テクノロジー担当上級副社長

Ixigo、
テクノロジー担当上級副社長

データセット Experts TL、
Bright Data

創設者兼開発者
提唱者、TiffInTech

技術担当副社長 Coding With Lewis

のデータプロダクト担当ディレクター、Bright Data

Tech Bible 創業者兼CEO

Bright Data 研究開発部長

創設者兼YouTuber Alex The Analyst

販売後サポートスペシャリスト Bright Data

Bright Data プロキシ製品担当ディレクター

Claro Analytics 創業者

Bright Data 最高執行責任者(COO)

ケンの近傍の隣人
ScrapeConは終了しましたが、議論は続いています。