セマンティックセグメンテーション

要約：セマンティックセグメンテーションは、画像内のすべてのピクセルにクラスカテゴリのラベルを付けます。これにより、マシンはシーンをピクセルレベルで詳細に理解できます。

セマンティックセグメンテーションは、コンピュータビジョンにおけるタスクです。画像内のすべてのピクセルを、道路、車、歩行者、空、建物などの定義済みカテゴリに分類します。バウンディングボックスを描く物体検出とは異なり、セマンティックセグメンテーションはクラスごとに正確なピクセルマスクを生成します。これにより、モデルは物体の形状と位置を細かく理解できます。この精度は自動運転や医療画像において不可欠です。

セグメンテーションの種類

セマンティックセグメンテーション：同じクラスのすべてのピクセルが1つのラベルを共有します。2台の車はどちらも「車」とラベル付けされ、個々のインスタンスは区別されません。
インスタンスセグメンテーション：同じクラスの個々の物体を区別します。各車に固有のIDとマスクが割り当てられます。
パノプティックセグメンテーション：両方を組み合わせ、すべてのピクセルにクラスラベルを付け、車や人などの可算物体に固有のインスタンスIDを付与します。

主要なモデルアーキテクチャ

完全畳み込みネットワーク（FCN）：セマンティックセグメンテーション向け初のエンドツーエンドモデル。全結合層を畳み込み層に置き換え、ピクセル単位の出力を実現します。
U-Net：スキップ接続を持つエンコーダー・デコーダー構造。医療画像セグメンテーションの標準アーキテクチャです。
DeepLab v3+：アトラス畳み込みとASPPを使用してマルチスケールのコンテキストを捉えます。ベンチマークデータセットで最先端の性能を発揮します。
Segment Anything Model（SAM）：あらゆる物体カテゴリでのゼロショットセグメンテーション向けMetaの基盤モデルです。

応用分野

自動運転車：道路、車線マーキング、車両、歩行者をリアルタイムでセグメント化します。3Dシーン理解のためにLiDARの点群と組み合わせて使用されます。
医療画像：MRI、CT、病理スキャンで腫瘍、臓器、組織をセグメント化します。
衛星画像：航空画像から土地利用のマッピング、森林破壊の検出、インフラの監視を行います。
ロボティクス：ロボットの操作と安全なナビゲーションを誘導するためにワークスペース表面をセグメント化します。
拡張現実：シーンのオーバーレイやエフェクトのために前景と背景を分離します。

セグメンテーションモデルのトレーニングデータ

セマンティックセグメンテーションには密にアノテーションされた画像が必要です。すべてのピクセルにラベルを付ける必要があり、これはデータラベリングの中で最も労力を要する形式の一つです。1つの運転シーンのピクセル単位のアノテーションには90分かかることもあります。シミュレーションからの合成データは無償のピクセルレベルのグラウンドトゥルースを提供し、アノテーションコストを大幅に削減します。Bright Dataのデータセットは、大規模なセグメンテーション用トレーニングデータセット構築のための大規模画像コレクションを提供します。

無料トライアル Google で始める