生成式AI基础
从“判断世界”到“创造世界”,深入理解生成式 AI、Transformer、扩散模型及 RAG 等核心概念。
过去两三年,AI 从“偶尔听说”变成了“天天出现”。它能写文章、画插画、剪视频、总结 PDF,甚至能按照你的提示做出 App 的界面草稿。很多人会问: “AI 是怎么做到这些的?” 而作为学习 Dify 的你,更需要知道: 模型之间有什么区别?为什么有的适合对话,有的适合画图?为什么智能体能理解你说的话?
一、从“判断世界”到“创造世界”
在引言中,我们提到过 AI 的发展历程中,核心能力可分为鲜明的两个阶段——判别式 AI 和生成式 AI。
过去的 AI 聚焦 “判断世界”,以识别、判断、分类为核心,核心作用是 “告诉你是什么”,本质是对现有信息的解读与界定。
如今的 AI 已转向 “创造世界”,核心能力升级为生成、创作、模拟,核心价值是 “帮你造一个新的”。文生图、文本创作与总结、视频生成、多模态理解、智能体规划与执行,乃至未来的 3D 场景生成,这些主流应用都隶属于 “生成式 AI” 的范畴。
生成式 AI 的核心逻辑并非从数据库检索答案,也不是照搬现有作品。它是在学习海量信息的内在规律后,进行 “理解后的重组”,最终生成 “可能合理” 的全新结果 —— 就像看过十万本书的人写出新段落,见过无数照片的人画出你描述的画面,用习得的规律创造前所未有的内容。

二、语言类模型:会写字的 Transformer
如果你只有时间理解一种模型,那一定是 Transformer,也就是 GPT、Claude、通义千问背后的技术。 它的本质很简单: 一个超级版本的“自动补全”。
想想你手机输入法里的“猜词”功能。当你输入“今天天”,它会提示“气”;当你输入“床前明月”,它会提示“光”。Transformer 做的事情在底层逻辑上与此类似,但它的“视力”更广,“脑量”更大。
- 概率的接龙游戏: 它并不是真的“知道”答案,而是在计算概率。它阅读过互联网上几乎所有的文本,通过海量数据的训练,学会了语言排列组合的统计规律。当你给它一个提示词(Prompt),它就开始疯狂计算:“在当前这个语境下,下一个最可能出现的字是什么?”
- 从预测一个字到生成一篇文章: 一旦它选定了下一个字,它就会把这个新字加入到已有的内容中,再次预测下下个字。周而复始,一个字接一个字,连词成句,连句成篇。
- 它不仅记得这一句的开头,还能通过“注意力机制”(Attention)关联到几千字之前的上下文。
- 因此,它可以生成具有逻辑推演、情感色彩甚至个性风格的完整篇章。

三、扩散模型:把“噪点”变成画面
图像和视频怎么生成的?它们依赖的是另一类模型:扩散模型(Diffusion Model)。也就是 Midjourney、Stable Diffusion 和 Sora 背后的核心技术。
一场“无中生有”的去噪游戏: 如果说 Transformer 是在做“填空题”,那么扩散模型就是在做“雕刻”。 想象一台满是雪花噪点(Static)的老式电视机。扩散模型做的事情,就是盯着这满屏的混乱噪点,按照你的指令,硬生生地从里面“看”出一幅清晰的画面来。 这听起来像是在变魔术,但它的原理可以分为两个过程:先学会“搞破坏”,再学会“搞修复”。
- 前向过程(加噪): 在训练阶段,AI 会拿一张清晰的照片(比如一只猫),然后不断地往上面撒“噪点”(像撒沙子一样),直到这张照片完全变成了一张看不出任何内容的“雪花图”。AI 记住了这个过程中的每一步变化。
- 反向过程(去噪): 生成图片时,AI 拿到的是一张纯粹的随机噪点图。它开始运用之前学到的“修复”能力,一步步地把噪点剔除,试图“复原”出它认为应该存在的图像。
文字是它的“导航员”: 如果没有提示词,模型可能会随机把噪点还原成一只狗、一棵树或一辆车。这时,你的 Prompt(提示词)就起到了导航员的作用。 当你输入“一只在太空中吃披萨的猫”时,你实际上是在告诉 AI:“在去除噪点的过程中,请只保留那些像‘猫’、‘太空’和‘披萨’的像素结构,其他的都丢掉。” 经过几十轮的“去噪-校准”,原本毫无意义的噪点,最终显影成了一幅细节惊人的画作。

视频生成的本质: 视频生成其实就是更高维度的扩散模型。 它不仅仅是在生成一张图片,而是一次性生成连贯的 24 张甚至更多张图片(每一帧)。它不仅要处理空间上的噪点(画得像不像),还要处理时间上的噪点(动作连不连贯),确保上一秒猫还在吃披萨,下一秒披萨变少而不是突然变成汉堡。 模型就从噪点中,反向“显影”出一幅画。
四、多模态模型:AI 第一次真正“看到世界”
如果说 Transformer 是“读万卷书”的才子,扩散模型是“妙笔生花”的画家,那么多模态模型(Multimodal Model)就是打破了感官壁垒的“全能通才”。这就是 GPT-4o、Gemini 能够听懂你的语气、看懂你的表情包背后的逻辑。
打破次元壁的“通感”大师: 在此之前,AI 的世界是割裂的:处理文字的 AI 也是“盲人”,处理图片的 AI 是“哑巴”。它们之间无法直接交流。多模态模型做的事情,就是给 AI 装上了“通感”系统。它不再把文字、图片、声音看作互不相关的格式,而是把它们都翻译成同一种“数学语言”。
一种通用的“罗塞塔石碑”: 它的核心原理在于“对齐”(Alignment)。 在多模态模型的脑海里,它建立了一个巨大的多维空间。它通过海量的训练,学会了把“一只在草地上奔跑的狗”这句文字,和“一张狗在草地上的照片”,映射到这个空间里几乎完全相同的位置。 对于电脑来说,原本一个是文本代码,一个是像素矩阵,风马牛不相及。但对于多模态模型,它们指向的是同一个概念。 就像它手里握着一块“罗塞塔石碑”,无论你是发给它一张照片、一段音频还是一行字,它都能瞬间理解这背后代表的同一种含义。文字变成了图片的注释,图片变成了文字的具象。
从“阅读理解”进化到“认知现实”: 这种能力的飞跃,让 AI 从单纯的“处理数据”变成了“感知现实”。
- 理解因果与幽默: 以前你给 AI 发一张摔倒的照片,它只能识别出“人、地面、摔倒”。现在你发给多模态模型,它能结合语境告诉你:“这个人可能因为踩到了地上的香蕉皮而滑倒,这看起来有点滑稽,但也很危险。”
- 跨感官的交互: 你可以拍一张冰箱内部的照片发给它,问它“今晚能做什么菜?”。它不仅“看见”了食材(视觉),还能调用菜谱知识(文本),最后像一个大厨一样给你建议。
它不再局限于单一的感官,而是像人类一样,通过综合视觉、听觉和语言来构建对这个世界的完整认知。
五、其他模型
目前其他模型适用于比较专业的场景,Dify 中涉及也较少。但未来,这些模型也有走进千家万户的可能,因此在此也进行简单的介绍。
1)3D 生成:AI 直接做出可旋转模型
从“纸片人”到“手办”: 传统的 AI 画图(如 Stable Diffusion)生成的只是一张薄薄的纸,你只能看它的正面,转过去背面就是空白。而 3D 生成模型(如 TripoSR、Luma)做的事情,就像是把这张画里的东西“抠”出来,并瞬间把背面捏出来。
一种极致的“空间脑补力”: 当 AI 看到一张“正面的椅子”图片时,它会运用它学习过的几何知识疯狂脑补:“既然正面是这样,那么背面应该长什么样?侧面的扶手应该有多厚?” 这就像是一个经验丰富的雕塑家,仅凭一张照片,就能在脑海里构建出物体的全貌,然后用虚拟的“数字黏土”(网格或点云)把它捏出来。 虽然它没真正见过这把椅子的背面,但它根据阅图无数的经验,通过计算光影和结构,猜出了最合理的形状。从“画一张图”到“造一个物”,AI 开始有了体积感。
2)世界模型(World Model):AI 开始“脑补环境”
不仅仅是画画,而是理解“物理规律”: 3D 生成是造物体,而世界模型(World Model)则是造“宇宙”。 这是目前 AI 领域最前沿的概念。之前的视频生成可能只是把画面连起来让它动,但 AI 可能并不懂“为什么这么动”。而世界模型通过学习,试图在他的大脑里构建一套类似真实世界的“物理引擎”。
在这个“大脑模拟器”里预演未来: 想象一下你在玩《极品飞车》或《侠盗猎车手》,游戏引擎知道车撞墙会停,杯子掉落会碎,水往低处流。世界模型就是在 AI 脑子里装了这样一个引擎。
- 理解因果: 当它生成一段视频时,它不是在瞎猜像素,而是在推演:“如果这辆车向左转,画面应该怎么变?如果玻璃杯掉在地上,它是应该弹起来还是碎一地?”
- 预测未来: 它甚至可以像人类的直觉一样,在你做出动作之前,就预测出环境会给出的反馈。
世界模型让 AI 不再只是一个只会模仿表象的“复读机”,它开始像一个初生的婴儿一样,通过观察世界,学会了重力、惯性、碰撞这些最基础的物理常识,从而在它的数字大脑里推演出一个符合逻辑的虚拟世界。
3)AI4S(AI for Science):AI 成为科学助手
如果说前面的模型是在学习人类的语言和艺术,那么 AI4S 就是让 AI 去学习“大自然的语言”。它不再是写诗作画,而是穿上白大褂,走进实验室,帮科学家解决那些最硬核的物理、化学和生物难题。
给科学探索按下“加速键”: 传统的科学研究往往是漫长的“试错”过程。爱迪生为了找灯丝试了 1600 种材料,新药研发往往需要耗费 10 年时间和数以亿计的资金。 AI4S 的出现,就像是给了科学家一张“藏宝图”。它通过分析历史上积累的海量实验数据,能在还没有做实验之前,就预测出哪种材料最可能成功,哪种药物分子最有效。它把原本需要几年的盲目摸索,压缩到了几天的精准计算中。
用“直觉”代替“死算”: 在 AI4S 出现之前,科学家预测天气或模拟流体,靠的是极其复杂的数学公式(如求解偏微分方程)。这不仅难,而且极度消耗超级计算机的算力,算得慢还容易累死电脑。 AI 的思路完全不同。它不硬解公式,而是靠“经验”。 这就好比一个老练的篮球运动员投篮。他不需要在脑子里计算抛物线公式、空气阻力和重力加速度,他凭的是练习千万次后的“肌肉记忆”和“直觉”。 AI4S 就是在这个层面上工作:它通过学习亿万次的数据变化规律,跳过了繁琐的公式推导,直接给出极其逼近真实结果的预测。
AlphaFold 的折叠魔法: 最著名的例子就是 DeepMind 的 AlphaFold。 蛋白质是生命的基石,它的功能取决于它复杂的 3D 结构(像是一团极其复杂的缠绕线团)。过去,人类科学家花了几十年,费尽九牛二虎之力才解析出一小部分蛋白质结构。 而 AlphaFold 仅仅通过学习已知的数据,就像玩极速拼图一样,在短短时间内预测出了地球上几乎所有已知蛋白质的结构。它不是在做实验,它是直接“看透”了生物分子的折叠规律。
六、人机交互的新范式:提示词工程 (Prompt Engineering)
在 AI 时代,编程语言不再是复杂的 Python 或 C++,而是你的母语。提示词工程(Prompt Engineering),听起来很高大上,本质上就是“如何学会跟机器好好说话”。
这就好比你招聘了一个博学但有点死板的实习生。如果你只是模糊地命令“去写个方案”,他大概率会给你一堆废话;但如果你告诉他“作为一名资深产品经理,请针对年轻用户群体,写一份不少于 500 字的推广方案,语气要活泼”,他就能交出满分答卷。
要想驾驭这个超级大脑,你需要掌握两个核心心法:
1. 赋予角色 (Persona):先给它发个“工牌”
这是最简单也最有效的一招。在提问之前,先告诉 AI “你是谁”。 AI 就像一个拥有无数面具的演员。你不指定角色,它就是个平庸的路人;指定了角色,它会立刻切换原本的知识库和语气。
- 普通问法: “怎么写减肥食谱?”(回答可能很官方、枯燥)
- 高手问法: “你是一位拥有 20 年经验的专业健身教练和营养师,请帮我……”(回答会变得专业、有鼓励性、注重科学搭配)
2. 把话说全 (Context):别让它玩“猜谜游戏”
很多人觉得 AI 笨,是因为自己没把背景(Context)交代清楚。不要只给一个动词,要给它补全 “给谁看、什么背景、什么格式”。
- 模糊指令: “帮我写个请假条。”
- 清晰指令: “我因为感冒发烧(原因),需要向老板(对象)请两天病假(时长)。请帮我写一个请假条,语气要诚恳但专业(风格),并保留我的手机号作为紧急联系方式。”
3. 少样本学习 (Few-Shot Prompting):给它“抄作业”的机会
当你费尽口舌描述规则,它还是听不懂时,不如直接给它看两个例子。 大模型本质上是一个强大的模仿者。当你只给指令时(这叫 Zero-shot),它在瞎猜你的标准;但当你给出几个示例(Few-shot)时,它会迅速分析示例中的规律,并完美复刻。
- 人类做法: “帮我把这个词翻译成英文,要有诗意一点。”
- Prompt 做法:
“请模仿以下风格进行翻译:
- 例子 1:‘花落知多少’ -> 'How many flowers have fallen.'
- 例子 2:‘举头望明月’ -> 'I raise my head to view the bright moon.'
- 请翻译:‘大漠孤烟直’”
七、模型的“仪表盘”:关键参数详解
当你打开 Dify 或其他大模型平台,看到的那些诸如 Temperature、Token 之类的参数,其实就是控制 AI 这个“内燃机”的仪表盘。
1. Token (词元):AI 的“计费单位”
在 AI 眼里,文字不是按“字”算的,而是按 Token 算的。 Token 是文本被切分后的最小单位。
- 换算关系: 在英文中,1 个单词 $\approx$ 0.75 个 Token;而在中文里,1 个汉字通常对应 1 到 2 个 Token(取决于具体的模型分词方式)。
- 为什么重要: 几乎所有商业模型(如 GPT-4)都是按 Token 数量收钱的。你在提问时(Input)和它回答时(Output),计费表都在转动。
2. 上下文窗口 (Context Window):AI 的“短期记忆”
这是 AI 一次能处理的信息量上限。
- 金鱼的记忆: 早期的模型窗口很小(比如 4k Token),聊了十几句,它就忘了你最开始叫什么名字。
- 大象的记忆: 现在的模型(如 Claude 3 或 GPT-4-Turbo)拥有 128k 甚至更长的窗口,意味着你可以把整本《红楼梦》扔进去,让它去分析林黛玉的性格。
- 注意: 窗口虽然大了,但塞的东西越多,它找信息的精度可能会下降(这就叫“大海捞针”效应),而且费用也会飙升。
3. 温度 (Temperature):理性与感性的调节阀
这个参数控制 AI 输出的随机性,范围通常在 0 到 1 之间(有些模型可更高),通常模型厂商官方会给出一个推荐温度,大部分情况下使用推荐温度就好,但您也可以自己调节。
- 严谨模式 (0 - 0.3): 适合写代码、做数学题、提取数据。AI 会变得像个严谨的会计,每次回答几乎一模一样,不敢越雷池一步。
- 创意模式 (0.7 - 1.0): 适合写小说、头脑风暴、聊天。AI 会变成浪漫的诗人,哪怕同一个问题,每次都能给你整出点新花样,但也更容易“胡说八道”。
八、不可忽视的缺陷:幻觉与局限
把大模型捧上神坛之前,我们必须清醒地认识到它的阿喀琉斯之踵:幻觉 (Hallucination)。
4. 为什么它会“一本正经地胡说八道”?
还记得我们在第一章说的吗?Transformer 的本质是预测下一个字。但其实并没有真正“理解”事实,它只是记得“这些字凑在一起看起来很通顺”。 当你问它“林黛玉倒拔垂杨柳的情节是怎么样的?”,它可能会根据“倒拔垂杨柳”联想到鲁智深,又根据“林黛玉”联想到《红楼梦》,然后自信满满地编造一段林黛玉在健身房撸铁的故事。 它不是在撒谎,它只是在“做梦”。
5. 知识的“压缩”与“过时”
- 有损压缩: 大模型训练的过程,其实是把整个互联网的知识“压缩”进了参数里。就像把高清电影压成模糊的 GIF,细节(具体的电话号码、非著名人物的生日)很容易丢失或记混。
- 时间胶囊: 模型的知识是有截止日期的。如果没有联网搜索,GPT-4 可能至今不知道 2024 年的奥运冠军是谁,因为它的记忆停留在训练结束的那一天。
九、怎么解决?——“知识库”与 RAG:给 AI 配一本“参考书”
既然模型记不住细节(比如你公司昨天的会议记录),还爱瞎编(幻觉),怎么办? 答案是:从“闭卷考试”改为“开卷考试”。
1. 闭卷 vs 开卷:RAG 的核心逻辑
- 以前(纯大模型): 就像让一个学生进考场,不许带书,全凭记忆答题。如果问他“李白是谁”,他能背出来;但如果问“我们公司上周发的《考勤新规》第三条是什么”,他不仅背不出,为了面子还可能现编一条骗你。
- 现在(RAG 技术): 我们允许这个学生带一本厚厚的《参考书》(这就是你的知识库)。当遇到不会的问题,他先去书里翻,找到对应的段落,照着念或者总结给你听。
这就是 RAG(Retrieval-Augmented Generation,检索增强生成)。它不强求 AI “背下”所有知识,而是教会 AI “怎么查资料”。
2. 它是怎么工作的?(三步走)
RAG 把 AI 的回答过程分成了三步,彻底治好了它的“胡说八道病”:
- 第一步:检索 (Retrieval) ——“找小抄”: 当你问:“我们公司的报销额度是多少?” 系统不会直接把问题扔给 AI,而是先去你的“企业文档库”里快速翻找。它发现《2024年财务报销手册.pdf》第 5 页提到了“额度”相关的内容,于是把这段话“抠”了出来。
- 第二步:增强 (Augmented) ——“递小抄”: 系统把用户的问题,和刚才抠出来的“标准答案片段”,打包在一起,悄悄塞给 AI。 这时候,给 AI 的指令其实变成了:“用户问报销额度是多少。请根据这段财务手册的内容(参考资料),回答用户的问题。不要自己瞎编。”
- 第三步:生成 (Generation) ——“写答案”: AI 读了参考资料,底气十足地回答:“根据财务手册规定,员工单笔报销额度为……”
3. 这里的“黑科技”:向量数据库 (Vector Database)
你可能会问:“电脑怎么知道哪段话是我要找的‘参考资料’?靠搜索关键词吗?” 不仅仅是关键词。RAG 背后有一个更聪明的图书管理员,叫“向量数据库”。 它不看字面,看“意思”。
- 传统搜索:你搜“苹果”,它只能找到有“苹果”这两个字的文章。
- 向量搜索:你搜“好吃的红皮水果”,它能帮你找到“苹果”。
在知识库里,AI 会把所有的文档都翻译成一串串数字(向量)。当你提问时,它计算的是你的问题和文档内容的“相似度”。所以,哪怕你的提问词和文档里的词完全不一样,只要意思相近,它也能精准地把那段话找出来给 AI 参考。
目前:RAG、企业知识检索等技术日新月异,这里仅仅介绍一些简单的概念,后续会有更详细的章节进行论述。
4. 为什么这对你很重要?
这就是我们为什么需要 Dify 这样的平台。
- 数据隐私: 你不需要把公司的机密数据拿去“训练”模型(那是极贵且不安全的),你只需要把文档放进 Dify 的知识库,AI 就能“读”懂,且数据不出家门。
- 即时更新: 公司政策变了?只要替换一下文档,AI 下一秒就能回答最新内容,不需要重新训练。
- 杜绝幻觉: 通过限制 AI “仅依据知识库回答”,你可以把它的胡说八道率降到最低,让它从“段子手”变成靠谱的“客服专家”。