ジェネレーティブAI

要約：ジェネレーティブAIは、大規模なトレーニングデータセットから統計的パターンを学習することで、テキスト、画像、音声、動画などの新しいコンテンツを生成します。

ジェネレーティブAIとは、オリジナルコンテンツを生成するAIシステムを指します。トレーニングデータのパターン、構造、スタイルを学習し、そのパターンに合致する新しい例を生成します。ChatGPTはテキストを生成し、Stable Diffusionは画像を作成し、Soraは動画を生成します。これらはすべてジェネレーティブAIによって動いています。この技術は2022年11月のChatGPT公開とともに主流となりました。

主要なアーキテクチャ

大規模言語モデル（LLM）：膨大なテキストコーパスで学習されたTransformerベースのモデルです。次のトークンを予測することでテキストを生成します。参照：大規模言語モデル。
拡散モデル：ノイズを加えるプロセスを逆転させることを学習し、画像、音声、動画を生成します。Stable DiffusionとDALL-Eはこのアプローチを採用しています。参照：拡散モデル。
敵対的生成ネットワーク（GAN）：生成器ネットワークがデータを作成し、識別器がその現実性を評価します。敵対的学習によって品質が向上します。
変分オートエンコーダ（VAE）：データを圧縮された潜在空間にエンコードし、デコードして新しいサンプルを生成します。

ジェネレーティブAIが生成できるもの

テキスト：記事、要約、コード、メール、法的文書、会話。
画像：フォトリアリスティックな写真、イラスト、製品モックアップ。
音声：テキストプロンプトから生成される音楽、ナレーション、効果音。
動画：テキストや画像入力から生成される短いクリップやアニメーション。
3Dオブジェクト：ゲーム、製品デザイン、仮想環境向けのメッシュ。
合成データ：実データが不足または機密性が高い場合のAIトレーニング用合成データセット。

ジェネレーティブAIのトレーニング方法

ジェネレーティブモデルには、膨大で高品質なデータセットが必要です。テキストモデルは、ウェブ、書籍、コードから数千億のトークンで学習します。画像モデルは、数十億の画像とキャプションのペアで学習します。データ品質が出力品質を直接左右します。低品質または偏ったデータは、低品質または偏った出力をもたらします。RLHFなどのアライメント技術が、モデルが有益で安全な応答を生成するよう導きます。