生成式AI基础

从“判断世界”到“创造世界”，深入理解生成式 AI、Transformer、扩散模型及 RAG 等核心概念。

过去两三年，AI 从“偶尔听说”变成了“天天出现”。它能写文章、画插画、剪视频、总结 PDF，甚至能按照你的提示做出 App 的界面草稿。很多人会问： “AI 是怎么做到这些的？” 而作为学习 Dify 的你，更需要知道：模型之间有什么区别？为什么有的适合对话，有的适合画图？为什么智能体能理解你说的话？

一、从“判断世界”到“创造世界”

在引言中，我们提到过 AI 的发展历程中，核心能力可分为鲜明的两个阶段——判别式 AI 和生成式 AI。

过去的 AI 聚焦 “判断世界”，以识别、判断、分类为核心，核心作用是 “告诉你是什么”，本质是对现有信息的解读与界定。

如今的 AI 已转向 “创造世界”，核心能力升级为生成、创作、模拟，核心价值是 “帮你造一个新的”。文生图、文本创作与总结、视频生成、多模态理解、智能体规划与执行，乃至未来的 3D 场景生成，这些主流应用都隶属于 “生成式 AI” 的范畴。

生成式 AI 的核心逻辑并非从数据库检索答案，也不是照搬现有作品。它是在学习海量信息的内在规律后，进行 “理解后的重组”，最终生成 “可能合理” 的全新结果 —— 就像看过十万本书的人写出新段落，见过无数照片的人画出你描述的画面，用习得的规律创造前所未有的内容。

From Judging to Creating

二、语言类模型：会写字的 Transformer

如果你只有时间理解一种模型，那一定是 Transformer，也就是 GPT、Claude、通义千问背后的技术。它的本质很简单：一个超级版本的“自动补全”。

想想你手机输入法里的“猜词”功能。当你输入“今天天”，它会提示“气”；当你输入“床前明月”，它会提示“光”。Transformer 做的事情在底层逻辑上与此类似，但它的“视力”更广，“脑量”更大。

概率的接龙游戏：它并不是真的“知道”答案，而是在计算概率。它阅读过互联网上几乎所有的文本，通过海量数据的训练，学会了语言排列组合的统计规律。当你给它一个提示词（Prompt），它就开始疯狂计算：“在当前这个语境下，下一个最可能出现的字是什么？”
从预测一个字到生成一篇文章：一旦它选定了下一个字，它就会把这个新字加入到已有的内容中，再次预测下下个字。周而复始，一个字接一个字，连词成句，连句成篇。
- 它不仅记得这一句的开头，还能通过“注意力机制”（Attention）关联到几千字之前的上下文。
- 因此，它可以生成具有逻辑推演、情感色彩甚至个性风格的完整篇章。

Language Models

三、扩散模型：把“噪点”变成画面

图像和视频怎么生成的？它们依赖的是另一类模型：扩散模型（Diffusion Model）。也就是 Midjourney、Stable Diffusion 和 Sora 背后的核心技术。

一场“无中生有”的去噪游戏：如果说 Transformer 是在做“填空题”，那么扩散模型就是在做“雕刻”。想象一台满是雪花噪点（Static）的老式电视机。扩散模型做的事情，就是盯着这满屏的混乱噪点，按照你的指令，硬生生地从里面“看”出一幅清晰的画面来。这听起来像是在变魔术，但它的原理可以分为两个过程：先学会“搞破坏”，再学会“搞修复”。

前向过程（加噪）：在训练阶段，AI 会拿一张清晰的照片（比如一只猫），然后不断地往上面撒“噪点”（像撒沙子一样），直到这张照片完全变成了一张看不出任何内容的“雪花图”。AI 记住了这个过程中的每一步变化。
反向过程（去噪）：生成图片时，AI 拿到的是一张纯粹的随机噪点图。它开始运用之前学到的“修复”能力，一步步地把噪点剔除，试图“复原”出它认为应该存在的图像。

文字是它的“导航员”：如果没有提示词，模型可能会随机把噪点还原成一只狗、一棵树或一辆车。这时，你的 Prompt（提示词）就起到了导航员的作用。当你输入“一只在太空中吃披萨的猫”时，你实际上是在告诉 AI：“在去除噪点的过程中，请只保留那些像‘猫’、‘太空’和‘披萨’的像素结构，其他的都丢掉。” 经过几十轮的“去噪-校准”，原本毫无意义的噪点，最终显影成了一幅细节惊人的画作。

Diffusion Models

视频生成的本质：视频生成其实就是更高维度的扩散模型。它不仅仅是在生成一张图片，而是一次性生成连贯的 24 张甚至更多张图片（每一帧）。它不仅要处理空间上的噪点（画得像不像），还要处理时间上的噪点（动作连不连贯），确保上一秒猫还在吃披萨，下一秒披萨变少而不是突然变成汉堡。模型就从噪点中，反向“显影”出一幅画。

四、多模态模型：AI 第一次真正“看到世界”

如果说 Transformer 是“读万卷书”的才子，扩散模型是“妙笔生花”的画家，那么多模态模型（Multimodal Model）就是打破了感官壁垒的“全能通才”。这就是 GPT-4o、Gemini 能够听懂你的语气、看懂你的表情包背后的逻辑。

打破次元壁的“通感”大师：在此之前，AI 的世界是割裂的：处理文字的 AI 也是“盲人”，处理图片的 AI 是“哑巴”。它们之间无法直接交流。多模态模型做的事情，就是给 AI 装上了“通感”系统。它不再把文字、图片、声音看作互不相关的格式，而是把它们都翻译成同一种“数学语言”。

一种通用的“罗塞塔石碑”：它的核心原理在于“对齐”（Alignment）。在多模态模型的脑海里，它建立了一个巨大的多维空间。它通过海量的训练，学会了把“一只在草地上奔跑的狗”这句文字，和“一张狗在草地上的照片”，映射到这个空间里几乎完全相同的位置。对于电脑来说，原本一个是文本代码，一个是像素矩阵，风马牛不相及。但对于多模态模型，它们指向的是同一个概念。就像它手里握着一块“罗塞塔石碑”，无论你是发给它一张照片、一段音频还是一行字，它都能瞬间理解这背后代表的同一种含义。文字变成了图片的注释，图片变成了文字的具象。

从“阅读理解”进化到“认知现实”：这种能力的飞跃，让 AI 从单纯的“处理数据”变成了“感知现实”。

理解因果与幽默：以前你给 AI 发一张摔倒的照片，它只能识别出“人、地面、摔倒”。现在你发给多模态模型，它能结合语境告诉你：“这个人可能因为踩到了地上的香蕉皮而滑倒，这看起来有点滑稽，但也很危险。”
跨感官的交互：你可以拍一张冰箱内部的照片发给它，问它“今晚能做什么菜？”。它不仅“看见”了食材（视觉），还能调用菜谱知识（文本），最后像一个大厨一样给你建议。

它不再局限于单一的感官，而是像人类一样，通过综合视觉、听觉和语言来构建对这个世界的完整认知。

五、其他模型

目前其他模型适用于比较专业的场景，Dify 中涉及也较少。但未来，这些模型也有走进千家万户的可能，因此在此也进行简单的介绍。

1）3D 生成：AI 直接做出可旋转模型

从“纸片人”到“手办”：传统的 AI 画图（如 Stable Diffusion）生成的只是一张薄薄的纸，你只能看它的正面，转过去背面就是空白。而 3D 生成模型（如 TripoSR、Luma）做的事情，就像是把这张画里的东西“抠”出来，并瞬间把背面捏出来。

一种极致的“空间脑补力”：当 AI 看到一张“正面的椅子”图片时，它会运用它学习过的几何知识疯狂脑补：“既然正面是这样，那么背面应该长什么样？侧面的扶手应该有多厚？” 这就像是一个经验丰富的雕塑家，仅凭一张照片，就能在脑海里构建出物体的全貌，然后用虚拟的“数字黏土”（网格或点云）把它捏出来。虽然它没真正见过这把椅子的背面，但它根据阅图无数的经验，通过计算光影和结构，猜出了最合理的形状。从“画一张图”到“造一个物”，AI 开始有了体积感。

2）世界模型（World Model）：AI 开始“脑补环境”

不仅仅是画画，而是理解“物理规律”： 3D 生成是造物体，而世界模型（World Model）则是造“宇宙”。这是目前 AI 领域最前沿的概念。之前的视频生成可能只是把画面连起来让它动，但 AI 可能并不懂“为什么这么动”。而世界模型通过学习，试图在他的大脑里构建一套类似真实世界的“物理引擎”。

在这个“大脑模拟器”里预演未来：想象一下你在玩《极品飞车》或《侠盗猎车手》，游戏引擎知道车撞墙会停，杯子掉落会碎，水往低处流。世界模型就是在 AI 脑子里装了这样一个引擎。

理解因果：当它生成一段视频时，它不是在瞎猜像素，而是在推演：“如果这辆车向左转，画面应该怎么变？如果玻璃杯掉在地上，它是应该弹起来还是碎一地？”
预测未来：它甚至可以像人类的直觉一样，在你做出动作之前，就预测出环境会给出的反馈。

世界模型让 AI 不再只是一个只会模仿表象的“复读机”，它开始像一个初生的婴儿一样，通过观察世界，学会了重力、惯性、碰撞这些最基础的物理常识，从而在它的数字大脑里推演出一个符合逻辑的虚拟世界。

3）AI4S（AI for Science）：AI 成为科学助手

如果说前面的模型是在学习人类的语言和艺术，那么 AI4S 就是让 AI 去学习“大自然的语言”。它不再是写诗作画，而是穿上白大褂，走进实验室，帮科学家解决那些最硬核的物理、化学和生物难题。

给科学探索按下“加速键”：传统的科学研究往往是漫长的“试错”过程。爱迪生为了找灯丝试了 1600 种材料，新药研发往往需要耗费 10 年时间和数以亿计的资金。 AI4S 的出现，就像是给了科学家一张“藏宝图”。它通过分析历史上积累的海量实验数据，能在还没有做实验之前，就预测出哪种材料最可能成功，哪种药物分子最有效。它把原本需要几年的盲目摸索，压缩到了几天的精准计算中。

用“直觉”代替“死算”：在 AI4S 出现之前，科学家预测天气或模拟流体，靠的是极其复杂的数学公式（如求解偏微分方程）。这不仅难，而且极度消耗超级计算机的算力，算得慢还容易累死电脑。 AI 的思路完全不同。它不硬解公式，而是靠“经验”。这就好比一个老练的篮球运动员投篮。他不需要在脑子里计算抛物线公式、空气阻力和重力加速度，他凭的是练习千万次后的“肌肉记忆”和“直觉”。 AI4S 就是在这个层面上工作：它通过学习亿万次的数据变化规律，跳过了繁琐的公式推导，直接给出极其逼近真实结果的预测。

AlphaFold 的折叠魔法：最著名的例子就是 DeepMind 的 AlphaFold。蛋白质是生命的基石，它的功能取决于它复杂的 3D 结构（像是一团极其复杂的缠绕线团）。过去，人类科学家花了几十年，费尽九牛二虎之力才解析出一小部分蛋白质结构。而 AlphaFold 仅仅通过学习已知的数据，就像玩极速拼图一样，在短短时间内预测出了地球上几乎所有已知蛋白质的结构。它不是在做实验，它是直接“看透”了生物分子的折叠规律。

六、人机交互的新范式：提示词工程 (Prompt Engineering)

在 AI 时代，编程语言不再是复杂的 Python 或 C++，而是你的母语。提示词工程（Prompt Engineering），听起来很高大上，本质上就是“如何学会跟机器好好说话”。

这就好比你招聘了一个博学但有点死板的实习生。如果你只是模糊地命令“去写个方案”，他大概率会给你一堆废话；但如果你告诉他“作为一名资深产品经理，请针对年轻用户群体，写一份不少于 500 字的推广方案，语气要活泼”，他就能交出满分答卷。

要想驾驭这个超级大脑，你需要掌握两个核心心法：

1. 赋予角色 (Persona)：先给它发个“工牌”

这是最简单也最有效的一招。在提问之前，先告诉 AI “你是谁”。 AI 就像一个拥有无数面具的演员。你不指定角色，它就是个平庸的路人；指定了角色，它会立刻切换原本的知识库和语气。

普通问法： “怎么写减肥食谱？”（回答可能很官方、枯燥）
高手问法： “你是一位拥有 20 年经验的专业健身教练和营养师，请帮我……”（回答会变得专业、有鼓励性、注重科学搭配）

2. 把话说全 (Context)：别让它玩“猜谜游戏”

很多人觉得 AI 笨，是因为自己没把背景（Context）交代清楚。不要只给一个动词，要给它补全 “给谁看、什么背景、什么格式”。

模糊指令： “帮我写个请假条。”
清晰指令： “我因为感冒发烧（原因），需要向老板（对象）请两天病假（时长）。请帮我写一个请假条，语气要诚恳但专业（风格），并保留我的手机号作为紧急联系方式。”

3. 少样本学习 (Few-Shot Prompting)：给它“抄作业”的机会

当你费尽口舌描述规则，它还是听不懂时，不如直接给它看两个例子。大模型本质上是一个强大的模仿者。当你只给指令时（这叫 Zero-shot），它在瞎猜你的标准；但当你给出几个示例（Few-shot）时，它会迅速分析示例中的规律，并完美复刻。

人类做法： “帮我把这个词翻译成英文，要有诗意一点。”
Prompt 做法： “请模仿以下风格进行翻译：
- 例子 1：‘花落知多少’ -> 'How many flowers have fallen.'
- 例子 2：‘举头望明月’ -> 'I raise my head to view the bright moon.'
- 请翻译：‘大漠孤烟直’”

七、模型的“仪表盘”：关键参数详解

当你打开 Dify 或其他大模型平台，看到的那些诸如 Temperature、Token 之类的参数，其实就是控制 AI 这个“内燃机”的仪表盘。

1. Token (词元)：AI 的“计费单位”

在 AI 眼里，文字不是按“字”算的，而是按 Token 算的。 Token 是文本被切分后的最小单位。

换算关系：在英文中，1 个单词 $\approx$ 0.75 个 Token；而在中文里，1 个汉字通常对应 1 到 2 个 Token（取决于具体的模型分词方式）。
为什么重要：几乎所有商业模型（如 GPT-4）都是按 Token 数量收钱的。你在提问时（Input）和它回答时（Output），计费表都在转动。

2. 上下文窗口 (Context Window)：AI 的“短期记忆”

这是 AI 一次能处理的信息量上限。

金鱼的记忆：早期的模型窗口很小（比如 4k Token），聊了十几句，它就忘了你最开始叫什么名字。
大象的记忆：现在的模型（如 Claude 3 或 GPT-4-Turbo）拥有 128k 甚至更长的窗口，意味着你可以把整本《红楼梦》扔进去，让它去分析林黛玉的性格。
注意：窗口虽然大了，但塞的东西越多，它找信息的精度可能会下降（这就叫“大海捞针”效应），而且费用也会飙升。

3. 温度 (Temperature)：理性与感性的调节阀

这个参数控制 AI 输出的随机性，范围通常在 0 到 1 之间（有些模型可更高），通常模型厂商官方会给出一个推荐温度，大部分情况下使用推荐温度就好，但您也可以自己调节。

严谨模式 (0 - 0.3)：适合写代码、做数学题、提取数据。AI 会变得像个严谨的会计，每次回答几乎一模一样，不敢越雷池一步。
创意模式 (0.7 - 1.0)：适合写小说、头脑风暴、聊天。AI 会变成浪漫的诗人，哪怕同一个问题，每次都能给你整出点新花样，但也更容易“胡说八道”。

八、不可忽视的缺陷：幻觉与局限

把大模型捧上神坛之前，我们必须清醒地认识到它的阿喀琉斯之踵：幻觉 (Hallucination)。

4. 为什么它会“一本正经地胡说八道”？

还记得我们在第一章说的吗？Transformer 的本质是预测下一个字。但其实并没有真正“理解”事实，它只是记得“这些字凑在一起看起来很通顺”。当你问它“林黛玉倒拔垂杨柳的情节是怎么样的？”，它可能会根据“倒拔垂杨柳”联想到鲁智深，又根据“林黛玉”联想到《红楼梦》，然后自信满满地编造一段林黛玉在健身房撸铁的故事。它不是在撒谎，它只是在“做梦”。

5. 知识的“压缩”与“过时”

有损压缩：大模型训练的过程，其实是把整个互联网的知识“压缩”进了参数里。就像把高清电影压成模糊的 GIF，细节（具体的电话号码、非著名人物的生日）很容易丢失或记混。
时间胶囊：模型的知识是有截止日期的。如果没有联网搜索，GPT-4 可能至今不知道 2024 年的奥运冠军是谁，因为它的记忆停留在训练结束的那一天。

九、怎么解决？——“知识库”与 RAG：给 AI 配一本“参考书”

既然模型记不住细节（比如你公司昨天的会议记录），还爱瞎编（幻觉），怎么办？答案是：从“闭卷考试”改为“开卷考试”。

1. 闭卷 vs 开卷：RAG 的核心逻辑

以前（纯大模型）：就像让一个学生进考场，不许带书，全凭记忆答题。如果问他“李白是谁”，他能背出来；但如果问“我们公司上周发的《考勤新规》第三条是什么”，他不仅背不出，为了面子还可能现编一条骗你。
现在（RAG 技术）：我们允许这个学生带一本厚厚的《参考书》（这就是你的知识库）。当遇到不会的问题，他先去书里翻，找到对应的段落，照着念或者总结给你听。

这就是 RAG（Retrieval-Augmented Generation，检索增强生成）。它不强求 AI “背下”所有知识，而是教会 AI “怎么查资料”。

2. 它是怎么工作的？（三步走）

RAG 把 AI 的回答过程分成了三步，彻底治好了它的“胡说八道病”：

第一步：检索 (Retrieval) ——“找小抄”：当你问：“我们公司的报销额度是多少？” 系统不会直接把问题扔给 AI，而是先去你的“企业文档库”里快速翻找。它发现《2024年财务报销手册.pdf》第 5 页提到了“额度”相关的内容，于是把这段话“抠”了出来。
第二步：增强 (Augmented) ——“递小抄”：系统把用户的问题，和刚才抠出来的“标准答案片段”，打包在一起，悄悄塞给 AI。这时候，给 AI 的指令其实变成了：“用户问报销额度是多少。请根据这段财务手册的内容（参考资料），回答用户的问题。不要自己瞎编。”
第三步：生成 (Generation) ——“写答案”： AI 读了参考资料，底气十足地回答：“根据财务手册规定，员工单笔报销额度为……”

3. 这里的“黑科技”：向量数据库 (Vector Database)

你可能会问：“电脑怎么知道哪段话是我要找的‘参考资料’？靠搜索关键词吗？” 不仅仅是关键词。RAG 背后有一个更聪明的图书管理员，叫“向量数据库”。它不看字面，看“意思”。

传统搜索：你搜“苹果”，它只能找到有“苹果”这两个字的文章。
向量搜索：你搜“好吃的红皮水果”，它能帮你找到“苹果”。

在知识库里，AI 会把所有的文档都翻译成一串串数字（向量）。当你提问时，它计算的是你的问题和文档内容的“相似度”。所以，哪怕你的提问词和文档里的词完全不一样，只要意思相近，它也能精准地把那段话找出来给 AI 参考。

目前：RAG、企业知识检索等技术日新月异，这里仅仅介绍一些简单的概念，后续会有更详细的章节进行论述。

4. 为什么这对你很重要？

这就是我们为什么需要 Dify 这样的平台。

数据隐私：你不需要把公司的机密数据拿去“训练”模型（那是极贵且不安全的），你只需要把文档放进 Dify 的知识库，AI 就能“读”懂，且数据不出家门。
即时更新：公司政策变了？只要替换一下文档，AI 下一秒就能回答最新内容，不需要重新训练。
杜绝幻觉：通过限制 AI “仅依据知识库回答”，你可以把它的胡说八道率降到最低，让它从“段子手”变成靠谱的“客服专家”。

生成式AI基础

On this page