「倫理的なデータ収集の十戒」(技術的観点から)

倫理的なデータ収集は、ネットワークの日常的な運用において非常に具体的な形で現れます。注意すべき点は以下の通りです
1 分読
Ethical Data Collection Ten Commandments

本記事では以下の内容を解説します:

技術的観点から、データ収集ネットワークが倫理的であるとはどういうことか?

[1] 顧客確認(KYC確認)手続きの実施

  • 全ての潜在的なネットワーク利用者は、上級従業員および/またはコンプライアンス担当官による厳格な審査プロセスを経るべきである。
  • 潜在顧客が企業の場合、以下の項目を確認すべきである:(i) 実在を確認するための会社登記、(ii) 会社のウェブサイト、(iii) 会社のメールドメイン、(iv) 企業のソーシャルメディアプロフィール。
  • フリーランスの潜在顧客については、ビデオ面接と実物による身分証明書の提示を必須とする。データ収集ネットワークは、物理的な住所が正当であること、IPアドレスとクレジットカードの請求先住所が一致していることも確認すべきである。

[2] 悪用可能なAPIエンドポイントの遮断

倫理的なデータ収集ネットワークは、悪用・乱用の可能性があるAPIエンドポイントをブロックすべきです。具体的には:

偽アカウントの作成(SNS、レビューサイト、金融機関など)

広告詐欺(例:クリック詐欺)

虚偽のレビュー(偽の製品評価、サービスレビュー、大量投票を含む)

[3] グローバルネットワーク利用の監視

サービス拒否攻撃(DDoS)の閾値に近づかないよう、グローバルネットワーク利用状況を監視する必要があります。トラフィック量が急増した場合、自動的にスロットリング(帯域制限)が適用されます。

トラフィック監視は、特定の顧客から特定のターゲットドメインへのトラフィックのみを対象とするものではなく、全顧客・全製品から当該ターゲットドメインへの集計トラフィックを対象とするため、意図しないDDoS攻撃が発生する状況が生じます。

Mapping out how a DDOS attack works, with attacker setting up zombie computer to then enter the proxy network and attack a victim computer

画像出典:Bright Data

さらに、ネットワーク権限付与後はアカウントマネージャーがクライアントのイベントログを詳細に監視すべきです。当該クライアントのKYC確認利用目的と実際のアカウント活動に不一致が確認された場合、そのアカウントは永久に停止されます。

例:ウェブサイトテストを名目とする顧客が、実際にはネットワークを悪用して広告詐欺を実行しようとするケース。コンプライアンスチームは監視を通じてこうしたネットワーク不正利用を特定し、即座に阻止できます。

[4] サイトごとのトラフィック制限ルール – 悪影響を与えない

データ収集ネットワークは、その活動がサイトの通常のサービス品質を妨げないことを保証しなければならない。収集タスクがサイトリソースの10%を占めていても、DDoS攻撃の規模には程遠く、それでもパフォーマンスや運用統計の収集に影響を与え、ウェブサイトのプロダクトチームがユーザー行動について誤った結論に達する原因となる可能性がある。

したがってデータ収集ネットワークは 対象サイトを分析し、サイトの標準的な運用トラフィックレベルに基づいてドメインごとの制限を設定すべきである。これによりサービスレベルへの悪影響を防止しつつ、サイト利用統計の維持を支援できる。

[5] 非公開ドメインのブラックリスト化

倫理的なデータプロバイダーは、悪用行為の対象となり得る公開されたオープンソース情報を含まないドメインをブラックリストに登録すべきです。これには以下が含まれます:

支払いサーバー攻撃– 偽造または盗難された認証情報を使用した不正購入から、ハッキングやDDoS攻撃まであらゆる行為が含まれます。

APIサーバー妨害 – ウェブサーバー、アプリケーション、またはその両方に対する直接的な攻撃です。

[6] ピア同意

正当なデータ収集ネットワークは、詳細な利用規約説明に対する積極的な同意が得られた場合にのみ、ピアデバイス経由でトラフィックをルーティングする。デフォルトではユーザーはオプトインされていない。これは公正な取引交換であるべきであり、データ収集ネットワークがピアデバイス経由でトラフィックをルーティングできる一方、ピアは当該リソースに対して補償を受けることを意味する。これには無料のアップグレード版サブスクリプション、広告非表示版のアプリ、その他ユーザー体験に好影響を与えるあらゆるものが含まれる可能性がある。

[7] 遊休リソース

倫理的なデータ収集ネットワークは、ユーザー体験にほとんどまたは全く影響を与えないよう、厳格な条件下でのみピアリソース(トラフィックのルーティング)を利用することを事業方針とする。これらの条件は最低限、ユーザーデバイスが以下の状態であることを保証すべきである:

  • トラフィックがルーティングされる際、デバイスがアイドル状態(使用中ではない)であること
  • 3G/LTEデータの使用量を極めて限定的に抑えつつWiFiに接続されていること
  • 十分なバッテリー残量があること

各ピアの平均帯域幅は地理的位置に応じて変動すべきである。実際のグローバル推奨平均値は1ピアあたり1日8MB(Amazon製品ページ1ページの半分のサイズに相当)とする。

conditions for using opt-in device - when device is not in use, connected to WIFI connection and has enough batter power画像出典: Bright Data

[8] ネットワーク制限の設定

倫理的なデータ収集プラットフォームは、個々のピアデバイスを通るトラフィックを監視・制限し、ユーザーの自身の使用量と比較して無視できる程度のデバイスリソースしか消費しないようにします。例えば、平均的なユーザーが1日に複数のウェブサイトを訪問し、音楽を聴き、いくつかの短い動画を視聴する場合、倫理的なデータ収集プラットフォームの使用量は、通常のブラウザでAmazonの商品ページを1ページ読み込むことに相当します。

[9] オプトイン/オプトアウト

データ収集ネットワークは民主的なピアツーピアネットワークに基づく必要があります。このネットワークを構成する個人は、いつでも自由にオプトインおよびオプトアウトできる必要があります。これは分散化された自由なデータ・情報の流れを確保するために維持されなければならない、インターネット透明性の基本原則です。

[10] GDPR準拠(セキュリティ、保存、個人識別情報)

倫理的なデータ収集ネットワークは、以下を含むがこれらに限定されないGDPR規則を遵守すべきである:

  • IPアドレスをPIIとして収集する際は完全なユーザー同意を必須とし、ユーザーのプライバシーを保護。その他の個人情報・行動統計は一切収集しない。ユーザーからのデータ、またはユーザーに関するデータの収集は絶対に行わない。
  • 収集データのセキュリティと保管に関して、GDPRスクレイパーIDEおよびGDPRデータ処理者として、GDPR およびCCPA規則を完全に遵守する

結論

Bright Dataは10の倫理的データ収集原則を全て遵守しています。データ収集プラットフォーム選定時には、以下の点を確保するため十分な検討を推奨します:

  • 情報の長期的な価値
  • データの法的有効性、およびそこから派生する分析、製品、サービスの法的有効性
  • ネットワーク・システム・ソフトウェアの安全性

そして何よりも重要な要素は透明性です。透明性を示し、信頼性を証明しなければなりません。指針として、頻繁な変更を受け入れ、ガイドラインを頻繁に確認・検証してください。これは急速に進化する領域であり、正しい対応は容易ではありません。