拡散モデル

要約: 拡散モデルはノイズ付加プロセスを逆転させることを学習し、リアルなデータを生成します。Stable DiffusionとDALL-Eが最も代表的な例です。

拡散モデルは生成AIモデルの一種です。制御された破壊プロセスを逆転させることでデータを生成することを学習します。学習中、モデルは「順方向拡散」の各段階の画像を参照します：ガウスノイズが段階的に加えられ、最終的に画像は純粋なノイズになります。モデルはその逆——各ステップのノイズ除去方法——を学習します。推論時はランダムノイズから始まり、段階的にノイズを除去して新しい画像を生成します。

拡散モデルの仕組み

順方向プロセス：学習サンプルにTタイムステップにわたってガウスノイズが加えられます。タイムステップTまでに、データはランダムノイズと区別できなくなります。
逆方向プロセス：ニューラルネットワーク——通常はU-NetまたはTransformer——が各ステップのノイズを予測・除去することを学習します。
学習目標：ネットワークは各タイムステップで予測されたノイズと実際に加えられたノイズの差を最小化します。
サンプリング：純粋なガウスノイズから始まり、T回の逆方向ステップでノイズを除去し、新しいリアルなサンプルを生成します。

条件付けとテキスト制御

拡散モデルはテキストプロンプト、クラスラベル、または画像で条件付けできます。テキストから画像へのモデルはテキストエンコーダー（例：CLIP）を使用してノイズ除去プロセスを誘導します。クロスアテンション層が各ノイズ除去ステップでテキスト信号を注入します。これにより精密な制御が可能になります：モデルはプロンプトが記述する内容を正確に生成します。テキストプロンプトの質は非常に重要です——プロンプトエンジニアリングを参照してください。

主要な拡散モデル

Stable Diffusion：オープンソースのテキストから画像へのモデル。アート生成や合成データセットの作成に広く使用されています。
DALL-E 3：OpenAIのテキストから画像へのモデル。プロンプト遵守とフォトリアリズムに優れています。
Imagen：Googleの拡散モデル。テキストエンコーディングにLLMを使用します。
Sora：OpenAIのテキストから動画へのモデル。テキストプロンプトからリアルな動画クリップを生成します。
AudioLDM：テキストの説明から音声や音楽を生成します。

拡散モデルと学習データ

拡散モデルは他のAIシステム向けの合成学習データの生成にも使用されます。コンピュータービジョンでは、実際のラベル付きデータが不足している箇所を合成画像で補います。拡散モデルの学習には大規模な数十億の画像とテキストのペアが必要です。Bright Dataのデータセットは、生成モデルの構築とファインチューニング向けに大規模でキュレーションされた学習データを提供します。

無料トライアル Googleで始める