エージェント型AIとジェネレーティブAIは、この10年を定義する2つのパラダイムとなるだろう。AIが急速に普及するにつれ、そのアーキテクチャには、エージェント型とジェネレーティブ型という2つの異なるパターンが出現している。
このウォークスルーが終わったら、以下の質問に答えてみよう:
- エージェントAIとは何か?
- ジェネレーティブAIとは?
- なぜどちらも重要なのか?
- それぞれいつ使うべきか?
これらの技術の概要
エージェント型AIもジェネレーティブAIも、重み、事前学習、微調整、LLMといった基礎は共通していることが多い。主な違いは使い方にある。ここでは音楽の言葉を借りて、その違いを説明しよう。
- エージェント型AI:誰かが書いた音楽を、一音一音正確に演奏する。
- ジェネレーティブAI:おそらくまだパフォーマンスを実行しているが、それは即興だ。ベートーヴェンやジャズミュージシャンを思い浮かべてほしい。
エージェント型AIは複雑なタスクを完了させる。ジェネレーティブAIは、まったく新しいものを存在させる。
彼らが共有するもの
- 重み:ウェイトはモデルが実際に学習した内容を表す。内部のパターン認識と意思決定を定義する。
- 事前学習:これは、モデルが膨大なデータセットから学習し、それに応じて内部の重みを調整することである。
- 微調整:学習後、モデルは特定のタスクやドメインに合わせて微調整される。重みが微調整され、意図したとおりに動作するようになる。
- モデル:学習プロセスの後、モデルはその目的を果たすために使用される。エージェント型AIと生成型AIの両方において、最終的な結果は通常(常にではない)LLMによって動かされる。
両者の相違点
- 最終目標:エージェント型AIはタスクを達成するために作られる。生成型AIはコンテンツを作成するために作られる。
- インタラクション:エージェント型AIは最小限のプロンプトしか使わず、プロセスに従って行動する。ジェネレーティブAIはほぼ完全にプロンプト駆動型であり、モデルがプロンプトを受け取り、プロンプトを解釈した後にコンテンツを生成する。
- 自律性:エージェント型AIには高度な自律性が与えられているのに対し、ジェネレーティブ型AIは人間がループ内にいる状態で動作します。ChatGPTでLinkedInをスクレイピングするとき、あなたはエージェント型AIを使っています。ChatGPTに画像作成を依頼する場合、あなたはGenerative AIを使用しています。
- アウトプット:エージェント型AIは、「ジョブ・ステータス:完了」といった状態の変化を出力する。ジェネレーティブAIは通常、テキスト、画像、動画を出力する。
- 評価:エージェント型AIは、タスクを完了させたかどうかで評価される。生成AIは、そのアウトプットの品質、関連性、独創性によって評価される。
エージェントAI
エージェント型AIは、タスクの完了を中心に展開する。これをAIエージェントと混同してはならない。エージェントは、エージェント型AIの現実的で実用的なアプリケーションである。Agentic AIを使用してソフトウェアを構築する場合、アプリケーションには以下のニーズが1つ以上ある可能性が高い。
- 意思決定
- 問題解決
- 自治
- 交流
- タスク完了
アンダー・ザ・フード
- プランニング:どんなAIエージェントでも、最低限ゆるい計画が必要だ。これは、”あなたは親切なスクレイピングアシスタントです、これらの製品を抽出してJSONで出力してください “というようなプロンプトのような単純なものでよい。
- ツーリングとファンクションコール:エージェントは単独で動くわけではありません。複雑さによっては、電卓、あるいは完全なPlaywrightインスタンスへのアクセスを与えるかもしれません。エージェントにアクセス権を与え、いつどのようにツールを使用するかはエージェントが決定します。
- 状態管理:エージェントは、短期的なコンテキストと長期的なコンテキストの両方を認識する必要があります。短期的には、チャットコンテキストで十分ですが、これはお勧めできません。単純なCRUD(Create, Read, Update, Delete)アプリは、長い道のりを歩むことになります。永続的なストレージは、エージェントがその作業を適切に追跡することを可能にします。
- フィードバックループ:エージェントは、タスクが完了するまで、あるいはユーザによって中断されるなど条件付きで停止されるまで、ループで実行されなければなりません。
- 評価と終了:エージェントは、ジョブの完了を知る必要があります。ジョブステップが実行されたが、結果が受け入れられない場合、エージェントは処理を再試行する必要がある。ジョブが成功した場合、エージェントは制御ループを抜ける必要があります。
使用例
- カスタマーサービス:ほとんどすべてのウェブサイトが、ヘルプデスクでチャットボットを運用している。このような場合、モデルは問題やユーザーの感情をログに記録し、関数コールを使用してチケットを提出したり、問題が解決されたことをマークしたりします。
- ヘルスケア医療業界では、このパラダイムが命名されるずっと前、1990年代からエージェント型AIが使われてきた。エージェントはレントゲンや超音波検査、患者の病歴などを受け取り、診断のスピードアップに役立てている。
- ワークフロー:エージェントがブラウザとファイルシステムの両方にアクセスできるとします。エージェントはクロールを実行し、抽出されたデータをSQLデータベースであれ、単純なJSONファイルであれ、ストレージメディアに直接入力することができます。
- 自律型ロボット:おそらくエージェント型AIが最も広く使われているのは、自律走行ロボットとスマートホームだろう。テスラの自動運転はエージェント型AIだ。スマート家電やルンバもそうだ。
ジェネレーティブAI
先に述べたように、ジェネレーティブAIの機能は、作曲家やジャズ・ミュージシャンに近い。事前トレーニングに大きく依存することに変わりはないが(おそらくそれ以上に)、その事前トレーニングを使って新しい構造化データまたは非構造化データを作成する。ジェネレーティブAIは、以下のようなニーズを満たす。
- ユニークなアウトプットの作成
- データ分析
- 適応性
- パーソナライゼーション
アンダー・ザ・フード
- 事前に訓練された基礎モデル:ジェネレーティブAIモデルの中核にあるのは、巨大なニューラルネットワークだ。ChatGPT、Grok、Claude – これらのモデルはすべてトランスフォーマーアーキテクチャを利用している。トレーニングによって推論が可能になり、推論によって新しいデータを作ることができる。
- プロンプト・インターフェイス:これらのモデルは多くの場合、人間と直接対話するように設計されている。ミームを作成してください」、「このテキストを要約してください」とモデルに指示すると、プロンプトが直接出力を生成するために使用されます。
- ベクトルエンコーディング:プロンプトは数値ベクトルにエンコードされる。このベクトルはモデル内部の埋め込みに対して解釈されます。このベクトルと埋め込みについて詳しくはこちらをご覧ください。
- リトリーバル・アグメンテッド・ジェネレーション:RAGはまだオプションと考えられているが、一般的になりつつある。モデルが何かを知らないとき、関連するデータの検索(retrieval)を実行する。そして、その出力(生成)を改善(増強)するためにゼロショット学習を使用する。
- 出力媒体:モデルは次に、同じベクトルエンコーディングを使用して、出力をトークン(テキスト)、あるいは画像や動画に変換する。プロンプトによっては、JSONやCSVデータを要求することもできる。
使用例
- 会話ツール:ヘルプデスクのチャットボットとは異なり、ジェネレーティブ・チャットボットは会話を行い、ユニークなアウトプットを生成するように設計されています。Grok、ChatGPT、Claude、その他ほとんどのLLM中心のウェブアプリは会話ツールです。
- コンテンツの作成:高品質なコンテンツは、適切なプロンプトがあれば数秒で作成できることが多い。コンセプト・アート、ソーシャルメディア・スレッド、長文の文章など、ジェネレーティブ・モデルはこれらの種類のタスクを処理することができます。
- データ解析と生成:データセットファイルを分析用モデルにアップロードします。モデルによっては、詳細なレポートを取得したり、オリジナルのパターンを反映した新しい合成データセットを作成することもできます。
- パーソナライズされたアシスタント:ジェネレーティブAIは高度にカスタマイズ可能だ。特定の口調のアシスタントが欲しい場合、いくつかの例をあげれば、カスタムパーソナリティが出来上がります。
エージェント型AIとジェネレーティブAIの主な比較
基準 | エージェントAI | ジェネレーティブAI |
---|---|---|
主な目的 | ✔️ タスクの実行と完了 | ✔️ コンテンツの生成と合成 |
目標志向 | ✔️ はい – 明確な目標を持って運営されている | ❌ 本来は目標志向ではない |
プロンプト依存 | 最小 ❌ – 多くの場合、自律的に動く | ✔️ High – 出力を開始するにはプロンプトが必要です。 |
出力タイプ | ✔️ 状態の変化、完了したアクション | ✔️ テキスト、画像、コード、構造化データ |
ツールの使用/APIアクセス | ✔️ ツールや機能を頻繁に使用する | ❌ めったにない(エージェントのループに巻き込まれない限り) |
メモリー要件 | ✔️ 短期記憶と長期記憶が必要 | ❌ オプション(RAGまたはカスタムビルドのみ) |
コントロールフロー | ✔️ リトライロジック付きフィードバックループ | ワンショット生成(デフォルトではループなし) |
自治 | ✔️ 高い自律性が可能 | 人間がループに入るのが典型的である。 |
評価方法 | ✔️ 成功/失敗のバイナリ | ✔️ 主観的品質(独創性、トーンなど) |
実例 | ✔️ ウェブスクレイピングボット、自動運転車 | ✔️ ChatGPT、DALL-E、GitHub Copilot |
結論
エージェントAIとジェネレーティブAIは互いに競合するものではない。両者は、大きく重なり合うツールを持つ2つの異なるニッチだ。エージェント型AIは計画に従って行動し、ジェネレーティブ型AIは一度に1つのプロンプトを即興で作成する。
Bright DataのModel Context Protocolのようなツールは、エージェントやLLMがリアルタイムで実際のウェブデータを利用できるようにします。これは非常に強力で、AIはインターネット上のあらゆる公開サイトにアクセスすることができます。エージェント型AIでは意思決定が改善され、ジェネレーティブAIではアウトプットが改善されます。
エージェント型AIとジェネレーティブ型AIが未来を支配する。この2つの使い方を理解している建設業者やアナリストは、成功に向けて有利な立場に立つことができるだろう。
クレジットカードは必要ありません