ウェブクローリングなんて2019年式だ

データセットは、ウェブサイト全体またはスマートなサブセットの即利用可能なスナップショットを数分で提供します:貸し手は代替ローン申請者のデータを受け取り、ベンチャーキャピタリストにはスタートアップアクセラレーターの情報が提供され、その他の企業にはソーシャルメディアインフルエンサーのエンゲージメントスコアがアルゴリズムに直接供給されています
1 分読
Web Crawling Is So Last Decade

本記事では以下の内容を解説します:

  • – 事前収集データセットはウェブクローリングよりも効果的で付加価値が高い
  • – 業界横断的なデータセット活用事例
  • ソーシャルメディアデータセット

事前収集済みデータセットはウェブクローリングよりも効果的で価値を生み出す 

Bright Dataがすぐに使えるデータセットを導入して以来、多くの企業が自社でのウェブクローリングから移行し、サイト全体のスナップショットや、データニーズに合わせてカスタマイズされたスマートなサブセットを、チームに直接提供しています。 

この選択肢は、以下の面でビジネスの効率化に貢献しています:

  • 俊敏性データセットは高いレベルのワークフローと予算の柔軟性を実現します。データ収集作業に対する「継続的なコミットメント」が不要だからです。つまり、特定のプロジェクト向けにデータセットを1か月間カスタムオーダーした後、一時停止し、後日概念実証(PoC)用に別のデータセットをオーダーすることが可能です。データへのアクセスは制約ではなく、支援的な役割を担います。 

  • リソースデータセットは保守・維持管理や社内ハードウェア/ソフトウェアを必要とせず、IT・エンジニアリング・DevOps要員のチーム維持も不要です。 

  • 時間データセットは「構想段階」から新製品・機能・能力の展開までの期間を短縮します。収集時間が不要なため、アルゴリズムに必要なデータが数分で提供されるからです。さらにデータセットは定期的に更新されるため、常に最新情報に依存できます。 

  • コスト効率データセットは、拡張・アクセス・維持管理のコストが複数企業で分担されるため、より費用対効果の高い選択肢です。この「データ共有モデル」により、各参加企業の負担コストが削減されます。 

様々な業界におけるデータセットの活用方法

ビジネス/金融データセット

保険、投資、融資などの業界は、非常に厳格な規制が適用される分野であり、データセット全体 特に 代替データセット から恩恵を受けられます。 

例えば、機関投資家は、与信枠を申請する企業や個人のプロファイルを作成することでリスク軽減を図ります。通常、以下のような「従来型データ」を使用します:

  • ・信用履歴/スコア

  • 収入対負債比率 

しかし、申請者に関する意思決定に活用できる追加情報をアルゴリズムに投入できることで、金融機関はこれまで見過ごされていた中低リスクの顧客層を開拓できる可能性があります。 

企業の財務力を評価する際、業界ランキング、求人情報、従業員レビューといったデータセット 、あるいは収益、企業規模、投資ラウンドといったより「伝統的な」データポイントを活用することで、特定の企業の強みや信用格付けに関する有益な洞察が得られると同時に、その企業に対する理解の幅が広がります。

個人向けには、貸し手はソーシャルメディアのプロフィールを活用し、その人物像やそれが融資リスクに与える影響(スカイダイビングをするか?毎晩パーティーに参加するか?など)をより深く理解できます。 

また、対象顧客層がオンライン融資申込書を記入する平均所要時間に関する 即利用可能なデータセットを 注文することも可能です。例えばオマハ第一銀行のコンプライアンスチームは、この情報を収集し、異常な時間差のある申込書を精査しています。これは、内部統計がこうした申込書が多くの不正プロファイルのいずれかに該当する確率が高いことを示しているためです。 

投資家に関しては、ベンチャーキャピタル企業がデータセットを活用し、企業への早期参入を図っている。これは投資資本が急増する一方で、スタートアップ企業の数が横ばい状態にあるためである。この文脈で 関連する即利用可能なデータセットには 以下が含まれる:

  • スタートアップアクセラレータサイトの全ページをスキャンし、「収益化機会」を示す統計データ(短期間での従業員数増加、求人情報数の増加、業界フォーラムでの活発な活動、製品の成功したローンチなど)を持つ企業を特定する

  • アプリストアサイト全体をクロールし、高いパフォーマンス・ダウンロード数・星評価を獲得しているアプリケーションを抽出(これらは全て、ターゲット層における企業の成長率/採用率を示す指標となり得る) 

ソーシャルメディアデータセット

多くの企業は、ソーシャルメディアのインプットに大きく依存したビジネスモデルやデジタルサービスを展開している。フィットネスアプリ、ウェアラブルデバイス、「健康トラッキングをビジネスモデルとする」企業などが好例だ。こうした文脈では、企業は以下のような事前収集済みデータセットを注文している:

  • 健康・美容・スポーツ業界で最もフォロワー数の多いインフルエンサー– プロフィール全体または高いエンゲージメント指標を持つトレンド投稿のみを含む場合があります。これらはターゲット層の関心、感情、ワークアウトルーティンの非常に現実的な指標となり得ます。例えば、「お腹の脂肪を落としたい」という願望を議論する複数の投稿が存在する場合、この問題に特化した新製品への市場ニーズを示唆したり、既存製品ラインに効果的な広告メッセージを明らかにしたりする可能性があります。

  • 二次的なウェアラブル機器やアプリの達成データ– 多くの人々がフィットネスアプリやスマートウォッチなどのウェアラブル機器でワークアウトを記録しています。この情報は非公開で収集できませんが、多くのユーザーがソーシャルメディアで達成内容を共有するため、この代替/二次データセットを収集可能です 。 この情報は、人々がどのようなワークアウトルーティン(ランニング?ヨガ?)を行っているか、またその場所(ジム?公園?)を理解する上で極めて重要です。このデータは、広告キャンペーン、製品ライン、新しいフィットネスアプリの機能、その他多くのインサイトに活用でき、貴社が消費者第一の市場リーダーとなるのに役立ちます。 

結論

より賢明なビジネス判断のために必要なデータセットをインターネットから 積極的に収集する手法は「時代遅れ」です。これはリソースを大量に消費し、時間がかかり、非効率的な事業運営方法です。データセットを活用すれば 、中核事業に集中しつつ、必要なデータを必要な時に、必要な形式(パース済みJSON、CSV、Excel)で入手できます。