Web スクレイピングに関する8つの再認識ポイント

Webスクレイピングは、良心的な使用目的以外にも利用される可能性があるため、良くないイメージがあります。しかし、Web上に分散的に存在する価格、在庫、物件情報、ホテル空室情報などオルタナティブデータを効率的に取得するためにWebスクレイピングを正しく行うことで、商業的に様々なメリット、価値を得ることができます。同ブログでは、Webスクレイピングに関する通説に関して正し、データドリブンな意思決定に必要なデータソースのエンリッチメントに、同技術がどのように貢献することが可能かをご紹介いたします。
1 min read
開発ツールとデバイスを備えたラップトップ、上記の 8 番。

この記事では、以下を詳述します。

再認識ポイントその1:Webスクレイピングは合法、非合法?

Webスクレイピングは違法であると誤解されるケースが多々あります。実際には、パスワードで保護された情報や、個人を特定できる情報(PII)を収集しない限り、完全に合法です。もう一つ注意すべき点は、対象となるウェブサイトの利用規約(ToS)で、特定のウェブサイトから情報を収集する際の規則、規制、規定が遵守されているかどうかを確認することです。匿名化されたオープンソースのウェブデータを対象とし、カリフォルニア消費者プライバシー法(CCPA)とEU一般データ保護規則(GDPR)に準拠したデータ収集ネットワークのみと連携する企業は、決して違法ではありません。

米国では、収集する情報が一般に公開されているものであり、スクレイピングの過程で対象サイトに損害が及ばない限り、連邦政府レベルでは、Webスクレイピングを禁止する法律はありません。欧州連合や英国では、知的財産の観点から、スクレイピングはデジタルサービス法の対象になっています。「一般に公開されているコンテンツの複製」は違法ではないとしており、収集したデータが一般に公開されている限り、法的には問題ないことを意味しています。

再認識ポイントその2:Webスクレイピングは開発者向けのものである


 

再認識ポイントその3:スクレイピングはハッキングである

これは事実ではありません。ハッキングは、プライベートネットワークやコンピュータシステムを搾取する違法行為です。これらをコントールするには、個人情報を盗んだり、個人的な利益のためにシステムを操作するなどの不正な活動を行うことがポイントとなります。

一方、Webスクレイピングとは、対象となるウェブサイトから公開されている情報にアクセスすることです。これらの情報は、通常、企業がその領域でより良い競争をするために使用されます。その結果、より良いサービスが提供され、消費者にとってはより公正な市場価格が実現されます。

再認識ポイントその4:スクレイピングは容易である

多くの人が「スクレイピングは容易にできる」と間違った認識を持っています。「何が問題なのか」と問われれば、「ターゲットとなるウェブサイトに入り、ターゲット情報を取得すればいいだけだ」と答えるのです。しかし、実際には、スクレイピングは非常に技術的で、手作業が多く、リソースを大量に消費する作業です。JavaSeleniumPHPPhantomJsのいずれを使用するにしても、これらの言語でスクリプトを書く方法を知っている技術チームがスタッフ内にいる必要があります。

多くの場合、標的サイトは複雑な構造を持ち、ブロック機構は常に変化しています。これらのハードルを乗り越えた後、一般的に、データセットは、アルゴリズムが貴重な洞察を得るために分析できるように、クリーニング、合成、構造化される必要があります。要するに、スクレイピングは決して簡単ではないということです。

俗説その5:一度収集したデータは「すぐに使える」


 

通例そうでない場合も多々あります。ターゲット情報の収集には、さまざまな側面から検討する必要があります。例えば、情報をどのような形式で取り込むことができるのか、システムがデータを取り込むことができる形式と比較できます。 例えば、収集するデータがすべてJSON形式であるにもかかわらず、システムがCSVファイルしか処理できないとします。形式だけでなく、実際に使用する前に、データを構造化し、合成し、クリーニングするという問題もあります。これには、例えば、破損したファイルや重複したファイルを削除することが含まれます。データがフォーマットされ、クリーニングされ、構造化されて初めて、分析し、利用する準備が整います。

俗説その6:データスクレイピングは完全に自動化されたプロセスである


 

多くの人は、ウェブサイトを単にクロールし、ボタンクリックで情報を取得するボットが存在すると考えています。これは真実ではありません。ほとんどのウェブスクレイピングは手作業で行われ、プロセスを監視し、問題を解決するために技術チームが必要です。しかし、このプロセスを自動化する方法があります。ウェブスクレイパーIDEツールを使用するか、あるいは図出に収集されたデータセットを購入することで、複雑なデータスクレイピングプロセスに関与する必要はなくなります。

俗説その7:データスクレイピング操作の拡張は簡単である


 

これは全くの作り話です。データ収集用のソフトウェアやハードウェア、運用管理のための技術チームを社内で整備している場合。運用規模を大きくしようとすると、新しいサーバーを増設し、新しいメンバーを雇用し、ターゲットサイト用に新しいスクレーパーを構築する必要があります。サーバーの維持費だけで、月平均1,500ドルものコストがかかることを考えると、事業にとっては大きな負担となります。企業規模が大きいほど、コスト倍率は高くなります。

しかし、DaaS(サービスとしてのデータ)のプロバイダーに依存する場合、サードパーティのインフラやチームに依存するため、運用の拡張は非常に簡単になります。また、常に変化している数千のウェブドメインのライブマップも見ることができます。

俗説その8:ウェブスクレイピングで大量の有用なデータが得られる


 

そうでない場合も多々あります。手作業でデータを収集する企業は、不正確なデータや判読しにくい情報を受け取ることが非常に多くあります。そのため、品質検証を行うツールやシステムを利用し、実際のピアデバイスを経由してトラフィックをルーティングすることが重要です。これにより、ターゲットサイトはリクエスト者を実際のユーザーとして認識し、GEOの正確なデータセットを取得するよう「奨励」できます。品質検証を用いたデータ収集ネットワークを使用することで、データの小さなサンプルを取得し、それを検証した上で、初めて全体として収集作業を実行できます。時間とリソースの両方を節約できます。

キーポイント

このように、データスクレイピングについては、多くの誤解があります。事実を知ることで、今後のデータ収集に役立てることができます。