グラウンドトゥルース

要約：グラウンドトゥルースとは、機械学習モデルが予測するよう訓練される検証済みのラベルまたは答えです。その品質がモデルの精度を直接決定します。

機械学習において、グラウンドトゥルースとは、学習データに付与された正確で検証済みのラベルを指します。グラウンドトゥルースのラベルは、特定の入力に対する正解をモデルに伝えます。画像分類タスクでは、グラウンドトゥルースは「猫」というラベルかもしれません。物体検出では、シーン内のすべての物体のバウンディングボックスとクラスがそれにあたります。この用語はリモートセンシング、すなわち航空・衛星データを確認するフィールド測定に由来しています。

教師あり学習におけるグラウンドトゥルース

教師あり学習にはラベル付きデータが必要です。各学習サンプルはグラウンドトゥルースの出力と対になっています。モデルは予測とグラウンドトゥルースの差を最小化するよう学習します。この差は損失関数によって測定されます。グラウンドトゥルースのラベルの品質は、モデル性能における最大の要因です。ノイズの多い、または一貫性のないラベルはモデルを信頼できないものにします。

グラウンドトゥルースの作成方法

人手によるアノテーション：アノテーターが画像、テキスト、音声、センサーデータを手作業でラベル付けします。
専門家によるレビュー：特に医療や法律タスクでは、分野の専門家がラベルを検証します。
自動ラベリング：既存の構造化データやメタデータが自動的にラベルを提供します。
クラウドソーシング：Mechanical Turkなどのプラットフォームがアノテーション作業を大規模に分散します。
合成生成：合成データパイプラインが完全な組み込みラベル付きデータを生成します。

グラウンドトゥルースとモデル予測の比較

学習中、モデルはテストのグラウンドトゥルースを見ることはありません。評価指標は、モデルの予測をホールドアウトされたグラウンドトゥルースと比較します。一般的な指標には、精度、適合率、再現率、F1スコア、平均適合率（mAP）があります。学習データのグラウンドトゥルースで優れた性能を示しながら、テストデータで低い性能を示すモデルは過学習しています。

コンピュータビジョンとロボティクスにおけるグラウンドトゥルース

物体検出：グラウンドトゥルースのバウンディングボックスが学習画像内のすべての物体をラベル付けします。
3Dマッピング：LiDARで取得した点群がシーン理解のための空間的グラウンドトゥルースを提供します。
自動運転：グラウンドトゥルースマップが車線位置と障害物の場所を示します。
NLP：人間が書いた回答が質問応答モデルのグラウンドトゥルースとして機能します。

大規模なデータ品質とグラウンドトゥルース

大規模なAIプロジェクトには、正確にラベル付けされた何百万ものサンプルが必要です。一貫性のないアノテーションガイドラインはラベルノイズを生み出します。ラベルノイズはその深刻度に比例してモデルの精度を低下させます。Bright Dataのデータセットは、実世界のソースから収集された高品質で構造化された学習データを提供します。

無料トライアル Googleで始める