生成AIの基礎

「世界を判断する」から「世界を創造する」へ。生成AI、Transformer、拡散モデル、RAGなどの核となる概念を深く理解する。

ここ2〜3年で、AIは「たまに耳にするもの」から「毎日目にするもの」へと変化しました。記事を書いたり、イラストを描いたり、動画を編集したり、PDFを要約したり、さらにはプロンプトに従ってアプリのインターフェースのドラフトを作成したりすることもできます。多くの人がこう尋ねます。「AIはどうやってこれを行っているの？」 Difyを学ぶあなたにとっては、さらに以下のことを知る必要があります。モデルにはどのような違いがあるのか？なぜあるモデルは対話に適しており、あるモデルは描画に適しているのか？なぜエージェントはあなたの言葉を理解できるのか？

1. 「世界を判断する」から「世界を創造する」へ

はじめに、AIの発展の歴史において、核となる能力は「判別式AI」と「生成AI」という鮮明な2つの段階に分けられると述べました。

過去のAIは 「世界を判断する」 ことに焦点を当て、識別、判断、分類を核としていました。その主な役割は「それが何であるかを教える」ことであり、本質的には既存の情報の解釈と定義でした。

今日のAIは 「世界を創造する」 方向へとシフトしており、核となる能力は生成、創作、シミュレーションへとアップグレードされ、その核心的な価値は「新しいものを造るのを助ける」ことです。テキストから画像への変換（Text-to-Image）、テキストの創作と要約、動画生成、マルチモーダル理解、エージェントの計画と実行、そして将来の3Dシーン生成に至るまで、これらの主流アプリケーションはすべて「生成AI」の範疇に属します。

生成AIの核心的なロジックは、データベースから回答を検索することでも、既存の作品をコピーすることでもありません。膨大な情報の内在的な法則を学習した後、「理解した上での再構築」を行い、最終的に「合理的である可能性が高い」全く新しい結果を生成します。それはまるで、10万冊の本を読んだ人が新しい段落を書いたり、無数の写真を見た人があなたの説明する場面を描いたりするように、学習した法則を使って前例のないコンテンツを創造するのです。

From Judging to Creating

2. 言語モデル：文字を書くTransformer

もし1つのモデルだけを理解する時間しかないなら、それは間違いなくTransformerです。これはGPT、Claude、Qwenの背後にある技術です。その本質はシンプルです。スーパーバージョンの「オートコンプリート」です。

スマホの入力方法にある「予測変換」機能を想像してください。「こんに」と入力すると「ちわ」とヒントが出たり、「あり」と入力すると「がとう」と出たりします。Transformerが行っていることは、底層ロジックにおいてはこれと似ていますが、その「視野」はより広く、「脳の容量」はより大きいです。

確率のしりとりゲーム：それは本当に答えを「知っている」わけではなく、確率を計算しています。インターネット上のほぼすべてのテキストを読み、膨大なデータのトレーニングを通じて、言語の配列の組み合わせの統計的法則を学びました。あなたがプロンプト（Prompt）を与えると、それは猛烈に計算を始めます。「現在のこの文脈において、次に来る可能性が最も高い文字は何か？」
1文字の予測から記事の生成へ：次の文字を選定すると、その新しい文字を既存のコンテンツに加え、さらにその次の文字を予測します。これを繰り返し、文字をつなげて文にし、文をつなげて記事にします。
- それはこの文の始まりを覚えているだけでなく、「注意機構」（Attention Mechanism）を通じて数千文字前の文脈に関連付けることもできます。
- したがって、論理性的な推論、感情的な色彩、さらには個性的なスタイルを持った完全な章を生成することができます。

Language Models

3. 拡散モデル：「ノイズ」を絵に変える

画像や動画はどうやって生成されるのでしょうか？それらが依存しているのは別の種類のモデル、拡散モデル（Diffusion Model）です。これはMidjourney、Stable Diffusion、Soraの背後にある中核技術です。

「無から有」を生むノイズ除去ゲーム： Transformerが「穴埋め問題」をしているとしたら、拡散モデルは「彫刻」をしています。砂嵐ノイズ（Static）だらけの古いテレビを想像してください。拡散モデルが行うことは、この画面いっぱいの混乱したノイズを見つめ、あなたの指示に従って、そこから無理やり鮮明な画面を「見て」取り出すことです。これは魔法のように聞こえますが、その原理は2つのプロセスに分けることができます。まずは「破壊すること」を学び、次に「修復すること」を学びます。

順方向プロセス（ノイズ付加）：トレーニング段階では、AIは鮮明な写真（例えば猫）を取り、その上に絶えず「ノイズ」（砂を撒くように）を撒き続けます。その写真が完全に何も見えない「砂嵐画像」になるまでです。AIはこのプロセスのあらゆる変化を記憶しました。
逆方向プロセス（ノイズ除去）：画像を生成する際、AIが受け取るのは純粋なランダムノイズ画像です。AIは以前に学んだ「修復」能力を使い始め、一歩一歩ノイズを取り除き、存在するはずだと考える画像を「復元」しようとします。

文字はその「ナビゲーター」：プロンプトがなければ、モデルはノイズをランダムに犬、木、あるいは車に復元してしまうかもしれません。この時、あなたのPrompt（プロンプト）がナビゲーターの役割を果たします。「宇宙でピザを食べている猫」と入力すると、実際にはAIにこう伝えています。「ノイズを除去する過程で、『猫』、『宇宙』、『ピザ』に見えるピクセル構造だけを残し、他は捨ててください。」数十回の「ノイズ除去-調整」を経て、本来無意味だったノイズは、最終的に驚くほど詳細な絵画として現像されます。

Diffusion Models

動画生成の本質：動画生成は、実はより高次元の拡散モデルです。それは単に1枚の画像を生成するだけでなく、連続する24枚以上（各フレーム）の画像を一気に生成します。空間上のノイズ（似ているかどうか）だけでなく、時間上のノイズ（動作が連続しているかどうか）も処理し、前の秒で猫がピザを食べていたら、次の秒でピザが突然ハンバーガーになるのではなく、小さくなっていることを保証しなければなりません。モデルはノイズの中から、逆向に絵画を「現像」するのです。

4. マルチモーダルモデル：AIが初めて真に「世界を見る」

Transformerが「万巻の書を読んだ」才子であり、拡散モデルが「筆が立つ」画家であるなら、マルチモーダルモデル（Multimodal Model）は感覚の壁を破った「万能のジェネラリスト」です。これが、GPT-4oやGeminiがあなたの口調を理解し、ミーム画像の背後にある論理を理解できる理由です。

次元の壁を破る「共感覚」マスター：これまで、AIの世界は分断されていました。文字を処理するAIは「盲目」であり、画像を処理するAIは「口がきけない」状態でした。それらの間で直接交流することはできませんでした。マルチモーダルモデルが行うことは、AIに「共感覚」システムを装備させることです。それはもはや文字、画像、音声を互いに関連のないフォーマットとして見るのではなく、それらすべてを同じ「数学言語」に翻訳します。

一種の普遍的な「ロゼッタ・ストーン」：その核心原理は「アライメント（Alignment）」にあります。マルチモーダルモデルの頭の中で、それは巨大な多次元空間を構築しています。膨大なトレーニングを通じて、「草の上を走る犬」という文字と、「草の上の犬の写真」を、この空間のほぼ同じ位置にマッピングすることを学びました。コンピュータにとって、元々は一つはテキストコード、もう一つはピクセルマトリックスであり、全く無関係なものです。しかし、マルチモーダルモデルにとっては、それらは同じ概念を指しています。それはまるで「ロゼッタ・ストーン」を手に持っているようなもので、あなたが写真、音声、あるいは一行の文字を送っても、それはその背後にある同じ意味を瞬時に理解できます。文字は画像の注釈となり、画像は文字の具象となります。

「読解」から「現実認識」への進化：この能力の飛躍により、AIは単なる「データ処理」から「現実感知」へと変化しました。

因果関係とユーモアの理解：以前は、転んでいる写真をAIに送ると、「人、地面、転倒」としか識別できませんでした。今、マルチモーダルモデルに送ると、文脈と組み合わせてこう教えてくれます。「この人は地面のバナナの皮を踏んで滑ったのでしょう。少し滑稽に見えますが、危険でもあります。」
感覚を超えたインタラクション：冷蔵庫の中の写真を撮って送り、「今晩どんな料理が作れる？」と尋ねることができます。それは食材を「見る」（視覚）だけでなく、レシピの知識（テキスト）を呼び出し、最終的にシェフのように提案してくれます。

それはもはや単一の感覚に限定されることなく、人間のように、視覚、聴覚、言語を総合してこの世界の完全な認識を構築します。

5. その他のモデル

現在、その他のモデルは比較的専門的なシナリオに適しており、Difyでの関与も少ないです。しかし将来的には、これらのモデルも多くの家庭に入り込む可能性があるため、ここで簡単に紹介します。

1）3D生成：AIが回転可能なモデルを直接作成

「紙の上の人」から「フィギュア」へ：従来のAI描画（Stable Diffusionなど）が生成するのは薄い一枚の紙であり、正面しか見えず、裏返せば空白です。一方、3D生成モデル（TripoSR、Lumaなど）が行うことは、まるで絵の中のものを「くり抜き」、瞬時に背面を捏ね上げるようなものです。

究極の「空間補完力」： AIが「正面の椅子」の画像を見ると、学習した幾何学知識を使って猛烈に脳内補完します。「正面がこうなら、背面はどうなっているはずだ？側面の手すりの厚さはどれくらいだ？」これはまるで経験豊富な彫刻家が、一枚の写真だけで物体の全貌を脳内で構築し、仮想の「デジタル粘土」（メッシュや点群）を使ってそれを捏ね上げるようなものです。実際にこの椅子の背面を見たことはありませんが、無数の画像を見てきた経験に基づき、光と影、構造を計算して、最も合理的な形状を推測します。「絵を描く」ことから「物を作る」ことへと、AIは体積感を持ち始めました。

2）世界モデル（World Model）：AIが「環境を脳内補完」し始める

ただ描くのではなく、「物理法則」を理解する： 3D生成は物体を作ることですが、世界モデル（World Model）は「宇宙」を作ることです。これは現在AI分野で最先端の概念です。以前の動画生成は単に画面をつなげて動かしているだけかもしれませんが、AIは「なぜこのように動くのか」を理解していないかもしれません。一方、世界モデルは学習を通じて、その頭の中に現実世界に似た「物理エンジン」を構築しようと試みています。

この「脳内シミュレーター」で未来を予行演習する：『ニード・フォー・スピード』や『グランド・セフト・オート』をプレイしているところを想像してください。ゲームエンジンは、車が壁にぶつかれば止まり、カップが落ちれば割れ、水は低い方へ流れることを知っています。世界モデルは、AIの脳内にこのようなエンジンをインストールしたものです。

因果関係の理解：動画を生成する際、ピクセルを当てずっぽうに推測しているのではなく、推論しています。「もしこの車が左に曲がったら、画面はどう変わるべきか？もしガラスのコップが地面に落ちたら、それは跳ねるべきか、それとも粉々になるべきか？」
未来の予測：それは人間の直感のように、あなたが行動を起こす前に、環境が返すフィードバックを予測することさえできます。

世界モデルにより、AIは単に表面を模倣するだけの「リピーター」ではなくなり、生まれたばかりの赤ん坊のように世界を観察することで重力、慣性、衝突といった最も基本的な物理常識を学び、そのデジタル脳内で論理に合った仮想世界を推論し始めます。

3）AI4S（AI for Science）：AIが科学アシスタントになる

前のモデルが人間の言語や芸術を学んでいるとしたら、AI4SはAIに「大自然の言語」を学ばせていると言えます。それはもはや詩を書いたり絵を描いたりするのではなく、白衣を着て実験室に入り、科学者が最もハードコアな物理、化学、生物の難題を解決するのを助けます。

科学探索の「早送りボタン」を押す：従来の科学研究は、しばしば長い「試行錯誤」のプロセスでした。エジソンはフィラメントを見つけるために1600種類の材料を試しましたし、新薬開発にはしばしば10年の歳月と数億ドルの資金が必要です。 AI4Sの出現は、科学者に「宝の地図」を渡したようなものです。歴史的に蓄積された膨大な実験データを分析することで、実験を行う前に、どの材料が最も成功しそうか、どの薬物分子が最も効果的かを予測できます。本来数年かかる盲目的な模索を、数日の精密な計算に圧縮します。

「力任せの計算」を「直感」に置き換える： AI4Sが登場する前、科学者が天気を予測したり流体をシミュレーションしたりするには、極めて複雑な数式（偏微分方程式の解法など）に頼っていました。これは難しいだけでなく、スーパーコンピュータの計算能力を極度に消耗し、計算が遅く、コンピュータを酷使します。 AIのアプローチは全く異なります。数式を強引に解くのではなく、「経験」に頼るのです。これはベテランのバスケットボール選手がシュートを打つようなものです。彼は脳内で放物線の公式や空気抵抗、重力加速度を計算する必要はありません。何千万回もの練習の後の「筋肉の記憶」と「直感」に頼っているのです。 AI4Sはこのレベルで機能します。何億回ものデータ変化の法則を学習することで、煩雑な数式の導出を飛ばし、実際の結果に限りなく近い予測を直接提示します。

AlphaFoldの折りたたみ魔法：最も有名な例はDeepMindのAlphaFoldです。タンパク質は生命の礎石であり、その機能はその複雑な3D構造（極めて複雑に絡み合った糸玉のようなもの）に依存しています。過去、人類の科学者は数十年をかけ、九牛の一毛ほどのタンパク質構造を解析するのに多大な労力を費やしました。一方、AlphaFoldは既知のデータを学習するだけで、まるでスピードパズルのように、短時間で地球上のほぼすべての既知のタンパク質の構造を予測しました。それは実験をしているのではなく、生体分子の折りたたみ法則を直接「見抜いて」いるのです。

6. ヒューマン・コンピュータ・インタラクションの新しいパラダイム：プロンプトエンジニアリング

AI時代において、プログラミング言語はもはや複雑なPythonやC++ではなく、あなたの母国語です。プロンプトエンジニアリング（Prompt Engineering）というと高尚に聞こえますが、本質的には「機械とうまく話す方法を学ぶこと」です。

これは、博識だが少し融通の利かないインターンを雇ったようなものです。ただ漠然と「案を書いて」と命じれば、おそらく無駄話の山を出してくるでしょう。しかし、「シニアプロダクトマネージャーとして、若年層ユーザーに向けた500文字以上のプロモーション案を、生き生きとした口調で書いてください」と言えば、満点の回答を出してくれます。

このスーパーブレインを使いこなすには、2つの核心的な心構えを習得する必要があります。

1. 役割を与える（Persona）：まずは「名札」をつける

これは最もシンプルで最も効果的な技です。質問する前に、まずAIに「あなたが誰か」を伝えます。 AIは無数の仮面を持つ役者のようなものです。役割を指定しなければ平凡な通行人ですが、役割を指定すれば、すぐに本来の知識ベースと口調を切り替えます。

普通の聞き方：「ダイエットレシピの書き方は？」（回答は公式的で退屈かもしれません）
達人の聞き方：「あなたは20年の経験を持つプロのフィットネストレーナー兼栄養士です。私が……するのを手伝ってください」（回答は専門的で、励ましがあり、科学的な組み合わせを重視したものになります）

2. 言葉を尽くす（Context）：「推測ゲーム」をさせない

多くの人がAIを馬鹿だと感じるのは、自分が背景（Context）をはっきりと伝えていないからです。動詞だけを与えるのではなく、「誰に見せるのか、どんな背景か、どんなフォーマットか」を補完してあげましょう。

曖昧な指示：「休暇届を書いて。」
明確な指示：「風邪と発熱（理由）のため、上司（対象）に2日間の病気休暇（期間）を申請する必要があります。誠実かつ専門的な口調（スタイル）で休暇届を書いてください。緊急連絡先として私の携帯番号を残してください。」

3. 少数ショット学習（Few-Shot Prompting）：「宿題を写す」チャンスを与える

ルールを説明しても理解してくれない時は、直接2つの例を見せた方が早いです。大規模モデルは本質的に強力な模倣者です。指示だけを与える時（ゼロショットといいます）、それはあなたの基準を当てずっぽうに推測しています。しかし、いくつかの例（フューショット）を与えると、例の中の法則を迅速に分析し、完璧に再現します。

人間のやり方：「この言葉を英語に翻訳して。少し詩的にして。」
Promptのやり方：「以下のスタイルを真似て翻訳してください：
- 例1：『花落知多少』 -> 'How many flowers have fallen.'
- 例2：『挙頭望明月』 -> 'I raise my head to view the bright moon.'
- 翻訳してください：『大漠孤煙直』」

7. モデルの「計器盤」：重要パラメータ詳解

Difyやその他の大規模モデルプラットフォームを開いたときに表示されるTemperatureやTokenなどのパラメータは、実はこのAIという「内燃機関」を制御する計器盤なのです。

1. Token（トークン）：AIの「課金単位」

AIの目には、文字は「字数」ではなくTokenで計算されます。 Tokenはテキストが分割された後の最小単位です。

換算関係：英語では、1単語 $\approx$ 0.75 Token。中国語や日本語では、1文字が通常1〜2 Tokenに対応します（具体的なモデルのトークン化方式によります）。
なぜ重要か：ほぼすべての商用モデル（GPT-4など）はToken数で課金されます。あなたが質問する時（Input）も、それが回答する時（Output）も、メーターは回っています。

2. コンテキストウィンドウ（Context Window）：AIの「短期記憶」

これはAIが一度に処理できる情報量の上限です。

金魚の記憶：初期のモデルのウィンドウは小さく（例えば4k Token）、十数文会話すると、最初にあなたが何という名前だったか忘れてしまいました。
象の記憶：現在のモデル（Claude 3やGPT-4-Turboなど）は128k、あるいはそれ以上の長さのウィンドウを持っており、『紅楼夢』を丸ごと放り込んで、林黛玉の性格を分析させることができます。
注意：ウィンドウは大きくなりましたが、詰め込めば詰め込むほど、情報を見つける精度は下がる可能性があり（「干し草の山から針を探す」効果）、費用も高騰します。

3. 温度（Temperature）：理性と感性の調整弁

このパラメータはAI出力のランダム性を制御し、範囲は通常0から1の間です（一部のモデルではより高くなることもあります）。通常、モデルベンダーは推奨温度を提供しており、ほとんどの場合は推奨温度を使用すれば良いですが、自分で調整することもできます。

厳格モード (0 - 0.3)：コードを書く、数学の問題を解く、データを抽出するのに適しています。AIは厳格な会計士のようになり、毎回ほぼ同じ回答をし、一線を超えることを恐れます。
創造モード (0.7 - 1.0)：小説を書く、ブレインストーミング、おしゃべりに適しています。AIはロマンチックな詩人になり、同じ質問でも毎回新しいものを生み出しますが、「でたらめ」を言いやすくもなります。

8. 無視できない欠陥：幻覚と限界

大規模モデルを神棚に上げる前に、そのアキレス腱である「幻覚（Hallucination）」を冷静に認識しなければなりません。

4. なぜ「もっともらしくでたらめを言う」のか？

第1章で述べたことを覚えていますか？Transformerの本質は次の文字を予測することです。しかし実際には事実を「理解」しているわけではなく、「これらの文字が一緒になるとスムーズに見える」と覚えているだけです。「林黛玉が柳の木を根こそぎ引き抜くエピソードはどんなもの？」と聞くと、「柳を引き抜く」から魯智深を連想し、「林黛玉」から『紅楼夢』を連想し、自信満々に林黛玉がジムで筋トレをする話をでっち上げるかもしれません。それは嘘をついているのではなく、「夢を見ている」のです。

5. 知識の「圧縮」と「陳腐化」

不可逆圧縮：大規模モデルのトレーニングプロセスは、実はインターネット全体の知識をパラメータに「圧縮」するものです。HD映画をぼやけたGIFに圧縮するようなもので、詳細（具体的な電話番号、有名でない人物の誕生日）は簡単に失われたり混同されたりします。
タイムカプセル：モデルの知識には期限があります。インターネット検索がなければ、GPT-4は2024年のオリンピックチャンピオンが誰かまだ知らないかもしれません。その記憶はトレーニングが終了した日で止まっているからです。

9. どう解決する？——「ナレッジベース」とRAG：AIに「参考書」を持たせる

モデルが詳細（昨日の会議議事録など）を覚えられず、でたらめ（幻覚）を言うのが好きなら、どうすればいいでしょうか？答えは、「クローズドブック試験」から「オープンブック試験」に変えることです。

1. クローズドブック vs オープンブック：RAGの核心ロジック

以前（純粋な大規模モデル）：学生に本を持たずに試験会場に入らせ、記憶だけで答えさせるようなものです。「李白は誰？」と聞けば暗唱できますが、「先週出された『新勤怠規定』の第3条は？」と聞かれると、暗唱できないだけでなく、面子を保つためにその場で作った一条であなたを騙そうとするかもしれません。
現在（RAG技術）：この学生に分厚い『参考書』（これがあなたのナレッジベースです）を持ち込むことを許可します。わからない問題に出会うと、まず本をめくり、対応する段落を見つけ、それを読み上げるか要約して聞かせてくれます。

これが RAG（Retrieval-Augmented Generation、検索拡張生成） です。AIにすべての知識を「暗記」させるのではなく、AIに「資料の調べ方」を教えるのです。

2. どうやって動くのか？（3ステップ）

RAGはAIの回答プロセスを3つのステップに分け、その「でたらめ病」を完全に治しました。

第1ステップ：検索（Retrieval）——「カンニングペーパーを探す」：あなたが「当社の経費精算の上限は？」と尋ねると、システムは質問を直接AIに投げるのではなく、まず「企業ドキュメントライブラリ」の中を素早く探します。『2024年財務精算マニュアル.pdf』の5ページに「上限」に関連する内容があることを発見し、その一節を「切り抜き」ます。
第2ステップ：拡張（Augmented）——「カンニングペーパーを渡す」：システムはユーザーの質問と、先ほど切り抜いた「模範解答の断片」をパッケージにし、こっそりAIに渡します。この時、AIへの指示は実はこう変わっています。「ユーザーが経費精算の上限を尋ねています。この財務マニュアルの内容（参考資料）に基づいて、ユーザーの質問に答えてください。自分で勝手にでっち上げないでください。」
第3ステップ：生成（Generation）——「答えを書く」： AIは参考資料を読み、自信満々に答えます。「財務マニュアルの規定によると、従業員の1回あたりの精算上限は……」

3. ここの「ブラックテクノロジー」：ベクトルデータベース（Vector Database）

「コンピュータはどうやって私が探している『参考資料』がどの段落かを知るの？キーワード検索？」と聞くかもしれません。単なるキーワードではありません。RAGの背後には、より賢い図書館員である「ベクトルデータベース」がいます。それは字面ではなく、「意味」を見ます。

従来の検索：「リンゴ」と検索すると、「リンゴ」という文字が入った記事しか見つかりません。
ベクトル検索：「美味しい赤い皮の果物」と検索すると、「リンゴ」を見つけてくれます。

ナレッジベースでは、AIはすべてのドキュメントを一連の数字（ベクトル）に翻訳します。質問すると、質問とドキュメントの内容の「類似度」を計算します。そのため、質問の言葉がドキュメントの言葉と全く違っていても、意味が近ければ、AIが参照できるようにその段落を正確に見つけ出すことができます。

現在：RAG、企業ナレッジ検索などの技術は日進月歩ですが、ここではいくつかの単純な概念を紹介するにとどめ、詳細は後の章で論じます。

4. なぜこれがあなたにとって重要なのか？

これが、私たちがDifyのようなプラットフォームを必要とする理由です。

データプライバシー：会社の機密データをモデルの「トレーニング」に使う必要はありません（それは極めて高価で安全ではありません）。ドキュメントをDifyのナレッジベースに入れるだけで、AIはそれを「読み」理解でき、データは社外に出ません。
即時更新：会社のポリシーが変わりましたか？ドキュメントを差し替えるだけで、AIは再トレーニングなしに、次の秒には最新の内容で回答できます。
幻覚の根絶： AIに「ナレッジベースのみに基づいて回答する」よう制限することで、でたらめ率を最低限に抑え、「ジョーカー」から頼れる「カスタマーサービス専門家」に変えることができます。

生成AIの基礎

On this page