セマンティックセグメンテーション

要約:セマンティックセグメンテーションは、画像内のすべてのピクセルにクラスカテゴリのラベルを付けます。これにより、マシンはシーンをピクセルレベルで詳細に理解できます。

セマンティックセグメンテーションは、コンピュータビジョンにおけるタスクです。画像内のすべてのピクセルを、道路、車、歩行者、空、建物などの定義済みカテゴリに分類します。バウンディングボックスを描く物体検出とは異なり、セマンティックセグメンテーションはクラスごとに正確なピクセルマスクを生成します。これにより、モデルは物体の形状と位置を細かく理解できます。この精度は自動運転や医療画像において不可欠です。

セグメンテーションの種類

  1. セマンティックセグメンテーション:同じクラスのすべてのピクセルが1つのラベルを共有します。2台の車はどちらも「車」とラベル付けされ、個々のインスタンスは区別されません。
  2. インスタンスセグメンテーション:同じクラスの個々の物体を区別します。各車に固有のIDとマスクが割り当てられます。
  3. パノプティックセグメンテーション:両方を組み合わせ、すべてのピクセルにクラスラベルを付け、車や人などの可算物体に固有のインスタンスIDを付与します。

主要なモデルアーキテクチャ

  1. 完全畳み込みネットワーク(FCN):セマンティックセグメンテーション向け初のエンドツーエンドモデル。全結合層を畳み込み層に置き換え、ピクセル単位の出力を実現します。
  2. U-Net:スキップ接続を持つエンコーダー・デコーダー構造。医療画像セグメンテーションの標準アーキテクチャです。
  3. DeepLab v3+:アトラス畳み込みとASPPを使用してマルチスケールのコンテキストを捉えます。ベンチマークデータセットで最先端の性能を発揮します。
  4. Segment Anything Model(SAM):あらゆる物体カテゴリでのゼロショットセグメンテーション向けMetaの基盤モデルです。

応用分野

  1. 自動運転車:道路、車線マーキング、車両、歩行者をリアルタイムでセグメント化します。3Dシーン理解のためにLiDAR点群と組み合わせて使用されます。
  2. 医療画像:MRI、CT、病理スキャンで腫瘍、臓器、組織をセグメント化します。
  3. 衛星画像:航空画像から土地利用のマッピング、森林破壊の検出、インフラの監視を行います。
  4. ロボティクス:ロボットの操作と安全なナビゲーションを誘導するためにワークスペース表面をセグメント化します。
  5. 拡張現実:シーンのオーバーレイやエフェクトのために前景と背景を分離します。

セグメンテーションモデルのトレーニングデータ

セマンティックセグメンテーションには密にアノテーションされた画像が必要です。すべてのピクセルにラベルを付ける必要があり、これはデータラベリングの中で最も労力を要する形式の一つです。1つの運転シーンのピクセル単位のアノテーションには90分かかることもあります。シミュレーションからの合成データは無償のピクセルレベルのグラウンドトゥルースを提供し、アノテーションコストを大幅に削減します。Bright Dataのデータセットは、大規模なセグメンテーション用トレーニングデータセット構築のための大規模画像コレクションを提供します。

20,000+ 人以上のお客様に世界中で信頼されています

始める準備はできていますか?