AGI-Next 峰会实录:唐杰、杨植麟、林俊旸、姚顺雨同台激辩

2026/01/14

AGI-Next 峰会实录:唐杰、杨植麟、林俊旸、姚顺雨同台激辩

1月10日,清华大学基础模型北京市重点实验室发起的“AGI-Next”峰会上,唐杰、杨植麟、林俊旸、姚顺雨同台交锋,张钹院士收尾,核心演讲与圆桌对话实录,先看精华。关注公众号回复“AGI实录”获取实录全文。

核心报告要点

唐杰(智谱AI):报告《让机器像人一样思考》。核心观点:Chat范式竞争因DeepSeek结束;Scaling仍是有效路径,但应探索模型自主Scaling;AGI价值在于解决高价值问题与成本平衡;未来模型要具备可校准的反思与元认知能力。 • 杨植麟(月之暗面/Kimi):聚焦Token效率与长文本能力。发布Muon优化器,较Adam实现两倍Token效率提升;提出模型需有价值观与品味,Scaling是技术、数据与审美的共进;强调长上下文是Agent时代的胜负手。 • 林俊旸(阿里Qwen):指出RL尚处早期,下一代范式核心是自主学习;通用Agent关键在解决长尾问题;中国团队3-5年全球领先概率约20%;美国API消耗中Coding占主导,反映市场需求变化。

圆桌对话(杨强、唐杰、林俊旸、姚顺雨远程)

姚顺雨(腾讯):Coding正在重塑行业,人用自然语言与电脑交流;To B市场强/弱模型分化加剧;模型公司做应用未必优于场景方;AGI新范式最可能诞生于OpenAI。 • 杨强(学界):Agent分四阶段(目标/规划的人定/自动组合),当前仍处初级脚本阶段;大模型存在哥德尔不完备问题,建议借鉴人类睡眠机制提升持续学习能力。 • 共识与分歧:一致认为从Chat转向Agent是大方向;分歧集中在自主学习与RL深化的优先级,以及中国团队全球领先的时间线与路径。

张钹院士收尾

当前大模型有五个缺失:指称缺失、真值与因果缺失、语用缺失、多义与动态语境缺失、闭环行为缺失;提出AGI五大硬指标:时空一致多模态理解、可控在线学习、可验证推理、可校准反思、跨任务强泛化,强调AGI定义需可执行、可检验。

让机器像人一样思考

演讲人:唐杰(智谱首席科学家、清华大学教授)

今天这个活动更多的是个学术活动,所以我们没有前面太多的环节,咱们直接进入报告环节。我自己这次要求大家、要求我们的团队没有主持人,不需要主持人。未来都是AI时代了,用AI主持,现在AI还没有做到,我先自我主持。第二个报告Kimi直接上来就行了,俊旸也直接上来,接下来是Panel,我开始我的报告。

我的报告题目,一方面是汇报我们这个基础实验室现在做的一些工作,另外一方面再给大家探讨一些想法和对未来的一些看法。我的题目是「让机器像人一样思考」,为什么这么说?其实我这个题目,当年我第一次提出来的时候,张钹院士是反对我的,说你不能老说让机器像人一样思考。但是我加了一个引号,所以现在可能允许我加引号说了。

智谱的起源与精神

我们从2019年开始在思考,我们能不能做到让机器像人一样真正在有可能的一点点的思考。所以2019年我们从清华成果转化,当时在学校的大力支持下,我们成立了智谱这么一家公司,我现在在智谱做首席科学家。我们也开源了很多,大家可以看到这里有开源的很多项目,左边还有很多关于大模型API调用的一些东西。

我在清华大概有20年,我2006年毕业,到今年正好20年。其实我一直在做的事情,我总结了一下也就两个事:第一,当年做了AMiner系统;第二,现在在做的大模型。我一直有一个观点,我自己受影响也比较大,我把它叫做像咖啡一样的精神来做事情。其实那个事情跟今天在座的一位嘉宾非常相关,就是杨强教授。

我记得我刚毕业的时候去港科大,去过的人都知道港科大就是一栋楼,会议室在里面、教室在里面、实验室也在里面、咖啡厅也在里面,吃饭的、打篮球的,都在这一栋楼里面。当时我们老能碰到,有一次在咖啡厅碰到以后,我就说这两天咖啡喝的非常多,是不是要戒一戒,要不然对身体不好。杨老师第一句话是说「对,应该戒一戒」,然后他说也不对,如果我们做研究能像你喝咖啡上瘾,是不是我们研究就做的非常好了?

当时喝咖啡上瘾这个事情一下子对我触动非常大,而且从2008年影响我到现在,也就是做事情可能就是要专注,一直做下去。这一次正好有幸碰到AGI这个事情,正好是需要长期投入、长期做的一件事,它不是短平快,今天我做了,明天就能开花结果,后天就结束了,它非常长期,恰恰值得来投入。

我们实验室2019年的时候在图神经网络、知识图谱方面,其实我们在国际上做的还行,但当时我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型,所有的人开始启动了大模型相关的研究。到今天做了一点点事情。

大模型智能水平的演进

大家也知道全球化,其实这张图是在2025年2月份,在整个大模型发展史上,我们把它叫智能水平,这个智能水平已经大大提高了。从早期的2020年,其实我们看到一些很简单的像MMU和QA的一些问题,当时已经很不错了,到今天基本可以做到非常满分的程度。

慢慢地,从最早期一些简单的问题,到了2021、2022年开始做一些数学题、一些需要推理——也就是加减乘除才能做对的问题,这时候我们可以看到模型通过后训练,慢慢地,现在也把这些问题补齐了,而且能力也大大提高。

再到2023、2024年,大家看到模型的发展从原来的只是一些知识记忆,到简单的数学推理,到更复杂的,甚至可以做一些研究生的问题,甚至开始回答一些我们真实世界的问题。比如说SWE Bench里面,其实已经做了很多真实世界的编程问题。

这时候我们可以看到模型的能力,智能水平越来越复杂,就像人成长一样——一开始我们在小学里面多看书,慢慢地做数学题,慢慢到了初高中,我们回答一些研究生的复杂推理问题。再到毕业之后,我们开始完成工作上的一些问题,更难的一些问题。到今年大家可以看到,HLE(人类终极测试)这个任务里面特别难,如果大家去看HLE里面,甚至有些问题连谷歌也找不到,比如说世界上某一个鸟的某一个耻骨的某一个什么,连谷歌也找不到这个页面,所以需要这个模型泛化出来。这时候该怎么做?现在也没有答案,但大家可以看到,它的能力在2025年快速得到提升。

从Scaling到泛化

另外一方面,我们可以看到这个模型,什么叫从Scaling到泛化?我们人一直都希望机器有泛化能力,我教它一点点,它就能举一反三,其实就和人一样。我们在教一个小孩子的时候,我们总希望教小孩子三个问题,他就会第四个、会第十个,甚至连原来没教过的也会,这时候我们怎么来做?直到今天,我们的目标是希望通过Scaling让它有更强的泛化能力,但是直到今天它的泛化能力还有待大大的提高,我们在不同的层面在提高它。

最早期的时候我们用Transformer训一个模型,把所有的知识记忆下来。我们训的数据越多,我们训的算力越多,它的长时知识的记忆能力越强,也就是说它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。于是你要问一个问题,中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

第二层是把这个模型进行对齐和推理,让这个模型有更复杂的推理能力以及理解我们的意图。我们需要持续的Scaling SFT,甚至强化学习。通过人类大量的数据反馈,我们在Scaling反馈数据,让这个模型可以变的更聪明、变的更准确。

今年是RLVR(可验证奖励强化学习)爆发年。今年我们通过可验证的强化学习,原来为什么这个事情很难做呢?因为原来我们通过人类反馈,我们只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。但如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。

这里面难题的难题,大家一听就知道,说可验证是什么意思?比如说可验证,数学也许可以验证、编程可能可以验证,但更广泛的,比如我们说做了一个网页,这个网页好不好看,这时候可能就不大好验证了,它需要人来判断。于是,我们现在可验证的RLVR面临的问题是什么?原来可验证的场景也许逐渐地不够用了,我们能不能到一些半自动可以验证,甚至不可验证的一些场景里面,让这个模型变的更加通用,这是我们面临的一个挑战。

未来机器慢慢地开始在物理世界做一些真实的任务,这些真实的任务,我们怎么来构建智能体的环境?这是面临的更多的一些挑战。大家可以看到这几年AI在沿着这几个方面,不仅仅是简单的Transformer,其实整个AI已经变成了一个大的系统、一个智能化的系统。

从Chat到做事:新范式的开启

从原来更多的是数理化的一些推理,从简单的小学、初中、高中到更复杂的GPQA理化生的复杂问题,到更难的甚至是一些奥赛金牌的问题,到今年大家可以看到HLE非常高难度的智能评测基准,现在在开始进行快速的提升。

另外一方面在真实的环境下,像今天很多人都在说代码能力特别强,而且能完成很多真实的代码。但事实上在2021年代码模型也存在,当时还跟俊旸、Kimi植麟有很多合作,当时也做出了很多这种模型。其实当时的Coding模型也可以编程,但当时的编程能力远远不如现在,甚至当时编十个程序也许对一个,但现在可能编一个程序,很多时候能自然的跑通,而且是一个非常复杂的任务,到今天我们现在已经开始用代码来帮助高级的工程师完成更复杂的一些任务。

大家可能会问,是不是智能越来越强,我们直接把模型不停地训就行了?其实也不是。大家知道2025年初发生了什么,2025年初DeepSeek出来,很多时候叫横空出世,我觉得这个词用的挺好的,真是叫横空出世。可能对我们研究界、对产业界,甚至对很多人都是,因为大家原来在这个学术界、产业界都没有料到DeepSeek会突然出来,而且确实性能很强,而且一下子让很多人感到很震撼。

后来我们在2025年初的时候当时在想一个问题,也许在DeepSeek这种范式下,把这种Chat时代基本上差不多算是解决了,也就是说我们做的再好,也许在Chat的问题上可能做到最后跟DeepSeek差不多,或许我们在上面再个性化一点,变成有情感的Chat,或者再复杂一点。但是总的来讲,这个范式可能基本上到这快到头了,剩下更多的反而是工程和技术上的问题。

当时我们面临这么一个选择,我们怎么让这个AI下一步朝向哪个方向发展?我们当时的想法也许新的范式是让每个人能够用AI做一件事情,这可能是下一个范式,原来是Chat,现在是真的做事了,所以新的范式开启了。

技术路线的选择:Thinking + Agentic + Coding

还面临的选择,因为这个范式开启,有很多种开启方法。大家还记得年初的时候,我记得有两个问题:一个是简单的编程,做Coding、做Agent;第二是我们可以用AI来帮我们做研究,类似于DeepResearch,甚至写一个复杂的研究报告。这两条思路可能还不大一样,这也是一个选择的结果。

一方面是做Thinking,我们加上一些Coding的场景;另外一方面可能要跟环境交互,让这个模型变的更加交互、更加生动,怎么来做?后来我们选了左边这条路,我们让它有Thinking能力。但是我们也没有放弃右边,我们大概在7月28号做了一件事情,相对来讲还比较成功的,把Coding、Agentic、Reasoning能力整合在一起了。

整合在一起可能也没那么容易,原来一般来讲大家做模型的时候,Coding相对来讲可能单独拿出去做,Coding变成Coding,推理变成推理,甚至有时候会数学变成数学,但这种做法往往会损失掉其他的能力。所以我们当时是把这三个能力基本上合在一起,让三个能力都相对比较平衡,在7月28号我们发布了4.5版本,这个版本在当时用12个Benchmark,我们在智能体、推理、代码上,基本上跑出来还算比较不错的一个结果。所有的模型,我们在国内,包括今天千问和Kimi,其实都是你追我赶,有时候这个在前面,有时候那个在前面,在当时那一天,我们排在前面。

真实环境下的挑战与突破

但是很快我们就把这个4.5开放出来让大家用,大家拿去编程吧,我们现在这个能力还挺不错的。既然我们选择了Coding和Agent,它就能做很多编程任务,我们就让它来编这种非常复杂的一些场景。结果发现用户跟我们反馈说,比如说我们要编一个植物大战僵尸,这个模型编不出来。

因为真实的环境下往往非常复杂,这个游戏是用一个Prompt自动生成的,包括整个游戏就可以玩,用户可以点击怎么来得分,选择什么样的植物以及怎么来打僵尸,僵尸从右边走过来,包括界面、包括后台的逻辑,全部是用这个程序自动一句话写出来的。这时候4.5在这个场景下做不出来,出了很多Bug,怎么回事?

后来我们发现在真实的编程环境下,它里面有很多问题,比如说在上面这种编辑环境下有很多问题需要解决,这时候恰恰利用到RLVR可验证的强化学习环境。于是我们在这里面搜集到大量的编程环境,通过编程环境作为强化,再加上一些SFT数据,使得这一块可以两方交互,把这个模型的效果提高。

另外一方面,我们在Web方面也做了一些工作,把Web的一些能力也利用Web环境,加上一些反馈,加上环境可验证。总的来讲是通过可验证来探索,于是我们当时在SWE Bench上得到了很不错的分,包括最近我们也得到了很不错的分。但这个模型的跑分是跑分,进入主模型又是一个非常大的挑战。很多人都有一个Benchmark,说我这个Benchmark分很高,但是真正这个能力进入主模型的还面临更多的一些挑战,而且在真实的体感中,用户体感还不一定效果好。

另外一个挑战,既然有这么多大量的RL任务,怎么把它全部统一训练在一起?因为不同的任务的长度都不一样,时间长度也不一样。所以我们当时开发了一个全异步的训练强化学习框架,怎样使得它异步的开始跑起来,这是我们在今年开源的另外一个框架里面的一个工作。这也使得Agent和Coding能力得到了很多的提升,最终的结果,我们最近发布的4.7,相比原来的4.6和4.5在Agent和Coding方面大大提升。

在体感方面更重要,为什么?因为你真的把Coding模型开放出去以后,用户用的跟你的跑分还不完全一样。今天可能是他自己的程序,我这个程序可能在我这个数据上做一个排序算法,效果好不好,体感好不好,他用的是这个结果,用的不是分值有多高。所以在真实的跑分下,我们也进行了详细的评测,这个评测完全是人工来做的,找了非常多编程高手来做评测。当然这里面还没有解决,还面临很多问题要解决。最后我们把这些能力整合到一起,2025年底我们在Artificial Analysis榜单上跑出了一个还不错的分,得到了还可以的分。

Device Use:从编程到操控设备

另一方面,我们又随着进一步发展,你要把这个问题在Agent环境下真的让它大规模用起来。大家可以看作Agent最基础的能力,什么叫最基础的能力?编程嘛,计算机编完程以后,它就可以执行,相当于Agent里面的一个action或者两个action。但如果你要做的更复杂,左边是Claude发布的computer use,中间是豆包手机,右边是Manus做的异步超长的任务。

假如你要让这个机器帮你做几十步、上百步的任务,甚至你说「请帮我搜集一下今天关于清华大学在小红书上所有的讨论,讨论完以后,关于某某的全部整理出来,给我生成相关的文档」,这时候AI得在一天监控小红书。它是自动的、完全异步,你不可能把手机打开盯着它,它是异步的,它是个非常复杂的任务。这样非常复杂的任务,总而言之,可以把刚才的问题变成一个Device Use,也就是在整个设备上我们怎么来做。

这里面更大的一个挑战,有些人说是不是更多的是采数据?其实更大的问题是很多应用根本就没有数据,全部是代码,全部是冷启动,这时候该怎么办?当然我们更希望我们通过这些数据能够一下子泛化出去。所以最早的确实是我们采了大量的数据,上千个数据,我们来进行整合,包括SFT,包括在特定领域的强化,使得它在某些领域上可以把效果做的不错。

但是更多的时候你会发现原来的iPhone use都是点按钮,但是更多的时候AI交互不是人。我们原来都把AI当作一个人,说AI能不能帮我们操作手机,但是你要想一下,其实这个AI不需要操作手机,更多的是API。但是现在你又不可能把手机变成纯API的系统,没有这个按钮了,所以这时候该怎么办?我们采用混合的方式,把API跟GUI两个混在一起,对AI比较友好的时候采用API的方式,有时候对人友好的时候,让AI模拟人来做GUI的操作方式。于是把这两个整合在一起,我们在大量的环境里面抽取到大量的数据,并进行全异步的强化学习,这样就把整个东西给整合在一起,使得这个AI有一定的泛化能力。

我刚刚说有一定的泛化能力,原因是说直到今天这个泛化能力都还差的很多、都还差的很远,但是它有一定的泛化能力了。更重要的是我们怎么克服冷启动带来的一些问题,比如如果说我们的数据不够,我们通过强化学习有可能把它带入一个陷阱。这个强化学习到最后,它整个学到以后,这个模型就像钻牛角尖一样,它就认死理,说我就要这样,效果一下就跑偏了。

这时候怎么把它拉回来?于是我们把SFT在中间穿插了一步,也就使得这个模型强化一段时间,再做一些SFT,再强化一点,变成一个交替的,使得它有一定的容错能力和有一定把它拉回来的能力,变成可扩展的训练算法。在移动环境下,我们使得效果在安卓里面取得不错的提升。另外在多任务的大模型强化学习上,我们也做了一定的工作,在算法上主要采用多轮的强化学习,工程上本质上就是Scaling,让它更大规模的往下。

AutoGLM开源

今年我们大概在12月份的时候开源了AutoGLM,把里面所有的东西都开源。大家注意我们开源的这个模型是9B模型,不是一个超级大的模型,原因是9B可以在人机交互里面动作特别快,执行速度特别快,如果特别大的话,它的执行速度就会很慢。所以我们开源了一个9B的模型,这个模型一开源,当时一下子就获得了两万多个star,而且三天就拿了一万多个star,还算不错。

这是一个例子,比如说我们下周要去长春玩,帮我们总结一下当前页面推荐的一些景点,然后到高德地图上收藏这几个景点,包括查看票价,再去12306订一张10点钟从北京去长春的高铁票,把相关信息整理好给我。这个模型在后台会执行40步,它会调用不同的APP,把不同的APP打开,然后输入相关的信息,相关查询、执行,整个操作40步执行完之后,把所有的东西全部给你。相当于这个AI做了一个类似于你的秘书的事情,整个全部执行下来。

更重要的是在所有的Device-use里面有几个榜单,包括OSWorld、Browser use、Mobile use相关的一些Bench,我们都取得了很不错的效果。其实你可以把这个模型想象成用了很多Agent数据在训,我们在9B的模型上用了很多Agent数据在训,其实它把原来的很多语言能力、推理能力可能会降低,也就是说它不再是纯通用的模型,它可能在Agent方面能力比较强,但是在其他方面可能会减弱。于是给我们带来一个新的问题,在未来这种超大规模的Agent模型上怎么来使得它不要降低,这变成一个新的问题。

2025年:GLM开源年与中国开源模型的贡献

我们2025年也是GLM的开源年,我们大概从1月份到12月份开源了很多模型,包括语言模型、智能体模型,还有我们多模态的模型,GLM-4.6、4.6V、4.5V等相关的一些模型。而且更重要的是我们可以看到中国开源模型在2025年做的贡献,这里蓝色的是开源的模型,黑色的是闭源的模型。我们可以看到Artificial Analysis上面,蓝色的前五基本上全部是中国的模型,也就是我们中国在开源大模型上做出了很多贡献。我们可以看到相比2025年初,也就是2024年的时候,美国那边开源,包括Meta LLaMA还占了绝对的优势。随着一年的发展,中国慢慢地在前五,基本上现在变成中国的模型。右边的这个图是大模型的盲测榜单,也就是通过人工评测的结果,我把它截屏了过来。

清醒认识:差距可能还在拉大

下面一个问题,下一步我们还能继续Scaling吗?我们下一个AGI范式是什么?我们面临更多的一些挑战。我们刚才做了一些开源,可能有些人会觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的答案是我们差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

未来思考:参考人脑认知的学习过程

下一步我们应该怎么做?我这里有一些简单的思考。我觉得从大模型整个发展史来讲,其实就是参考人脑认知的学习过程。从大模型最早的,要把世界长时知识全部背下来,就像小孩子,从小先看书,把所有的知识先背下来,然后慢慢地学会推理,学会数学题,学会更多的演绎、抽象。对于未来来讲,也是同理,对于人脑的认知学习来讲,未来有哪些能力,现在大模型还没有,但是人远远超过我们:

第一,2025年可能是多模态的适应年。 为什么这么讲?可能全球除了少量的几个模型,一下子吸引了很多关注,包括我们在内的很多多模态的模型都没有引起很多人的关注。更多的大家在做文本的智能提升。对于大模型来讲,怎么把多模态的信息收集起来,并且能够统一感知起来,也就是我们经常说的原生多模态模型。后来我想了想原生多模态模型和人的「感统」很相似,人的感统是我这边收集到一些视觉信息,还收集到一些声音的信息,还收集到一些触感的信息,我怎么把这些信息感统到一起,来感知一个东西。像我们人有些时候大脑会有些问题,很多时候是感统不够,感统失调会出现的问题。对于模型来讲,下一个多模态的感统能力怎么来做?

第二,模型现在的记忆能力和可持续性学习能力还不够。 人有几级记忆系统,我们有短期记忆、工作记忆、长期记忆,甚至我之前跟我们的同学、跟我们实验室的人聊天,我说好像一个人的长期记忆也并不代表知识,为什么?因为我们人类只有真的把这个知识记录下来,比如说对于我来讲,如果我的知识不能被记录在维基百科上,可能100年之后我也消亡了,我对这个世界也没有什么贡献,好像也不叫知识,好像在未来训人类大模型的时候,我的知识也没用,都变成噪音了。咱们怎么把我们整个记忆系统从单个人的三级到整个人类的第四级记录下来,整个记忆系统是我们人类未来要给大模型构建起来的。

最后,反思和自我认知。 其实现在模型已经有一定的反思能力,但未来自我认知是很难的问题,很多人在怀疑大模型有没有自我认知的能力。在座的也有很多基础模型实验室的专家,有些人是支持的,有些人是反对的,我是有一些支持的,我觉得这是有可能的,我们值得探索。

系统一与系统二

人类认知是双系统,系统一和系统二。系统一完成了95%的任务,比如说人类问一个问题,中国的首都是什么?大家的回答是系统一,因为你背下来了。或者你说你今晚晚上吃饭吗?你说吃,也是系统一,这些全部是系统一背下来了。只有更复杂的推理问题,比如说我今天晚上要请一个来自四川的朋友大吃一顿,去哪吃?这时候就变成系统二了,它就得琢磨这个四川的朋友是哪里来的,我们去哪大吃一顿,那就是系统二做的事情。系统二在我们日常中只占5%。

对于大模型来讲同样的道理,在2020年我们画了这么一个图,我们当时是说参考人类的AI系统应该长什么样子,有人类的系统一、有人类的系统二,还有一个自学习。当时为什么想了一个自学习呢?当时我是这么想的:首先系统一可以构建一个大模型,让它基于匹配就能回答,解决系统一的问题;系统二是可以加上一些知识融合,比如指令微调和思维链;第三是如果有些学过认知的,人脑在晚上睡觉的时候会无意识的自学习,如果人没有晚上睡觉不会变的更聪明。当时我们2020年的时候就说未来一定有AI的自学习机制、自学习思维链,但我们不知道怎么学习,就是先把问题抛出来。

对于系统一来讲,我们在不断地Scaling。如果我们在不停地Scaling数据,这带来了智能上界的提升。同时我们还在Scaling推理,使得机器思考的时间越长,用更多的计算和更多的搜索来找到更准确的解。第三方面是我们在Scaling自学习环境,让这个机器有更多的机会跟外界交互,拿到更多的反馈。所以通过这三个Scaling,我们可以让机器来参考人的学习范式,得到更多的学习机会。

Transformer的挑战与新型架构

对于系统一来讲,如果已经有Transformer了,是不是意味着我们只要加数据就完了,加更大的参数就完了?原来30T不够,是不是50T?50T不够就100T,到最后再加上参数从100B到1T到3T到5T甚至更大。但我们现在面临另外一个问题,什么问题?Transformer的计算复杂度是一个O(N²),使得我们在增大context的时候,显存的增大和推理效率能力会越来越低,这里面临很多问题。

最近有一些新型模型,包括一些线性模型试图在用线性的方法,参考人脑是我用更小的脑容量能存更大的知识。甚至更本质的一个问题是有没有可能,因为原来Transformer越训越大,包括最早的时候,我们探讨的时候没有说我们非得把模型弄小,越来越大比较早。但最近我也在反思,我们能不能找到更好的知识压缩的方法,把知识压缩到更小的空间里面,这是一个新的问题。这里面面临两个问题:第一个问题,工程上有没有办法?第二个问题,方法论有没有办法?所以最近包括很多人在探讨,我们大模型可能要回归到研究上来,不能像原来单纯的Scaling。

Scaling是一个很好的办法,但Scaling可能是最轻松的办法,是我们人类偷懒的一个办法,我们直接把Scaling Up上去,它就是一个偷懒的办法。但是更本质的方法,可能我们要找到新的东西。第二个是新的Scaling范式。Scaling可能是一个非常重要的路径,但我们怎么找到一个新的范式,让这个机器可以Scaling的机会。读书是一个机会,跟人交流也是一种机会,我们要找到一种新的,让这个机器可以独立Scaling的方式。

有些人会说我们加大数据,加大数据是我们人强加给它的,这个机器必须找到自己能通过、自己来定义一些奖励函数,自己来定义一些交互方法甚至训练任务来做Scaling,这是系统二来做的事情。更重要的是我们有了刚才两个以后,还要完成更多真实场景下超长的任务,这块怎么来做?要让这个机器有像人一样PLAN规划,做一下,检查一下,再反馈一下,人是这样来工作的,机器有没有可能这么做?一个超长任务怎么完成?

举个例子,我们今年已经有一点点文章出来,年初的时候跟我们团队的小伙伴说,年底你必须给我写一篇文章,但是没实现,最后也没做出来。反正到现在,大家知道在网上已经有一些文章开始尝试,这个idea也是模型生成的,实验也是模型做的,报告也是模型做的,最后可以做一个Workshop,但事实上还没有做出来,这里给出一个真实的超长环境下的任务例子。我们希望在这个基础上来定义未来AI会长什么样子,这是我们的一些思考。

智能的五个层级

早期在这个大模型之前,大部分机器学习都是F(X)到Y的映射,我学习一个函数,使得X样本可以映射到Y。大模型来了之后,我们把这个问题变成F(X)到X的映射,可能映射的也不是严格的X,但我们是让它完全用自监督的学习来做多任务的自学习。

另外第二层,我们加上这些数据之后,让这些模型学习如何推理,如何激活底层的智能。再往后,我们在教这个机器有自反思、自学习的能力,通过这个机器能够不断地自我批评,能够学习到哪些东西我应该做,哪些东西可以更优的来做。到未来,我们还要教这个机器能学习到更多,比如说能学习到自我认知,让这个机器能对自己的行为,比如说AI生成了大量的内容可以自我解释,我为什么要生成这个内容,我是什么,我的目标是什么。在终极上也许有一天,AI也有意识。我们大概有这么定义五层的思考。

计算机的三个核心能力

从计算机的角度上,计算机不会定义这么复杂。在我看来计算机有三个能力:第一,计算机的表示和计算。 把数据表示出来,它可以做计算。第二,编程。 计算机只有编程是计算机跟外界的交互。第三,本质上是搜索。但是这几个能力叠加在一起:第一是有了表示和计算,可以使存储能力远超于人。第二是编程可以做出人类更复杂的一些逻辑。第三,搜索可以比人做的更快。这是计算机这三个能力叠加在一起,可能能带来所谓的「超级智能」,也许能超过人类的一些能力。

AGI-Next 30:未来30年的愿景

我突然想起2019年,这个PPT原来真的是跟阿里巴巴合作的时候,当时让我给出一页PPT,我当时给出了这一页PPT,就是AGI-Next 30,未来30年我们应该做什么。这个图是我截屏下来的,Next AI,我们说在2019年的时候,未来30年,我们应该做让机器有推理能力、有记忆能力、有意识。我们现在差不多在这里面做了一定的推理能力,大家应该都有一点点共识。记忆能力有一部分,但意识还没有,这是我们在努力的。未来我们也在反思,如果用参考人脑认知,未来的AI可能会有什么是我、为什么是我,以及给这个模型构建意义系统,还有单个智能体的目标,以及整个智能体群体的目标,这样我们实现对未知的探索。

有些人可能会说这个完全不可能,但是大家记住,我们人类的终极意义是我们在不断地探索未知的知识,我们越是觉得不可能的,恰恰也许就是我们未来AGI上路上要去探索的。

2026年展望

2026年对我来说更重要的是要专注和做一些比较新的东西。 第一,我们要Scaling可能还会继续做下去,但Scaling已知的是我们不断加数据、不断探索上限。还有Scaling未知,就是我们不知道的新的范式是什么。 第二,技术创新。 会做全新的模型架构创新,解决超长上下文,还有更高效的知识压缩问题,以及我们会实现知识记忆和持续学习,这两个方面加在一起,可能是未来实现让机器比人能力还强一点点的一个机会。 第三,多模态感统,今年是一个热点和重点。因为有了这个能力,我们才使得AI可以实现进入像机器里面的长任务、长时效任务,在我们人的工作环境里面,比如说手机里面、电脑里面,它可以完成我们的长任务。当完成我们的长任务,AI就实现了一个工种,AI变成跟我们人一样,可以帮助我们实现。只有这样,AI才能实现具身,才能进入物理世界。我相信今年可能是AI for Science的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。

以上就是我的汇报,感谢大家!

Token效率与长文本

演讲人:杨植麟(月之暗面创始人/Kimi)

以下为演讲实录:

今天非常高兴有机会能跟大家分享我们在技术上的一些探索与思考。从2019年开始至今,所有大模型均基于同一个第一性原理——scaling law(缩放定律)。从能源转换为智能的视角审视,拥有更好的方法或更优的芯片,便能将能源更有效、更大量地转换成更高级的智能。核心要点可总结为:当具备更多的算力、数据和模型参数后,模型的loss(损失)便会线性下降,这构成了整个技术发展的基础。

回顾最早提出scaling law的Caplan的文章,对比了Transformer和LSTM在scaling law意义下的区别,其中包含了非常重要的洞察。图表显示,无论在何种参数量级,Transformer的loss始终低于LSTM。这意味着,在scaling law的尺度下,使用更少的flops(计算量)或参数即可得到更好的scaling效果。这已成为一个共识,也是Transformer后来成为主流架构的核心原因,因其在scaling上表现更佳。可以说,当前所有的模型架构迭代,都是为了寻找一条能够更接近图表左下角的曲线。一个网络架构越接近左下角,便意味着它是一个更优的架构。在当前背景下,这一点尤为重要,因为互联网的存量数据有限,而高质量数据的增长速度已赶不上模型规模扩展的速度。因此,当拥有一个更优、更靠左下角的架构时,智能上限也相应更高。

然而,真正关键的在于另一张图所揭示的、但可能被许多人忽略的洞察:Transformer为何更优?答案在于它对上下文不同位置的处理机制。以一个100K长度的上下文为例,通过计算从第一个到第十万个token各自的loss,可以绘制出一条positional loss(位置损失)曲线。观察发现,在序列的前期,例如前100个token内,Transformer与LSTM的表现几乎完全一致,两条曲线交错重叠。这说明,在极短的上下文环境中预测后续内容,两者的效果是等价的。因此,在短上下文场景下,Transformer并非更优的架构。

Transformer的架构优势体现在长上下文场景中。实验表明,当上下文长度增加到1000个token时,代表Transformer的蓝线会显著下降到代表LSTM的红线之下,显示出卓越的性能。这个视角揭示了架构在不同上下文长度下的优势差异,这是一个至关重要的指标。在当前的Agentic(代理智能)时代,这个问题变得尤为突出,因为许多Agent任务要求极长的上下文来完成高度复杂的指令。因此,一个拥有更低positional loss的架构,意味着它在执行Agent任务时具备更强的技术潜力。

我们的预训练策略,乃至整个模型的设计策略,便是围绕上述两个维度展开。

第一个维度是提升tokenefficiency。在以训练token数量为横坐标、测试损失为纵坐标的图上,我们的目标是尽可能将曲线向左平移。曲线越靠左,tokenefficiency越高,意味着可以用更少的token达到同等效果。由于预训练的瓶颈在于token总量的有限性,这等效于:在耗尽所有token后,智能的上限更高,因为最终的loss更低。这是我们进行预训练时一个极为重要的指标和优化方向。

第二个维度是实现long context(长上下文)。通过观察上下文位置与testloss的关系图可以发现,延长上下文能有效降低损失。这也解释了为何当前许多复杂的Agent任务必须在超长上下文中才能完成——延长上下文必然会降低loss,而一个优秀的Architecture(架构)则能使loss下降得更多。相比之下,如LSTM或更早的CNN、RNN等架构,在处理超过100个token后,loss曲线便趋于平缓,因此只能胜任翻译这类相对简单的任务,而无法承担从零开始编写一个完整代码仓库的编程任务。

综上,将tokenefficiency与long context的优化相结合,最终便能实现更高水平的Agent智能。在此基础上,我们有两项主要工作成果。

一是研发了一款新型二阶优化器。传统的Adam优化器作为标志性的一阶优化器已沿用近十年,而我们发现,采用二阶优化器能取得非常好的效果,具体体现为两倍的tokenefficiency提升。这意味着,达到相同的test loss,仅需一半的TOKEN。等效而言,使用相同数量的TOKEN,最终的loss会小得多,从而实现了一倍的scaling效果。

另一项重要工作是我们最新研究的KimiLinear架构。这个架构的优点在于,它的positional loss随着上下文位置的拉长,下降幅度非常显著,这意味着它在各类长上下文任务上的效果将得到极大提升。最终,我们将这两项工作相结合,相信能在模型训练策略上达到最优的Agent效果。

所有这些努力,都是为了构建更强大的Agent。为何要关注tokenefficiency?因为Agent的推理和训练本质上是一个搜索过程。例如,要从零开始开发一个Linux操作系统,这本质上是一个搜索问题。若拥有无限的计算资源,便可以枚举所有可能性,从中找出最优解。但搜索的核心在于通过先验知识进行剪枝,以提升效率。当今的Agent,正是以模型作为强大的先验知识,从而在搜索过程中无需遍历每一种无意义或错误的token组合。一个更优的预训练基础模型,实际上缩小了搜索空间,提供了更强的先验。

当然,当前也有许多研究在探索如何减少对先验的依赖,期望未来能像AlphaZero一样,在极少甚至没有先验的情况下实现AGI(通用人工智能)。但我认为,基于先验实现AGI的路径会更早到来。整个领域或许会先基于先验实现AGI,再去探索在先验知识逐渐减少的条件下实现ASI(超级人工智能)的方式。在此框架下,一个更强的模型等价于更强的先验。在有限的数据下,拥有更大的“脑容量”和更高的学习效率,意味着更高的智能。因此,更强的先验能够塑造更强大的Agent。而context则是另一个维度,Agent的行为需要工作记忆,更强的环境感知能力使其能胜任长程任务。最终,Agent的智能是这两者的结合。

在2025年的技术迭代中,Kimi正是沿着这两个方向不断进行新的探索和实践。

首先,在优化器方面,我们通过大量实验,发现并融入了一些关键技巧,例如加入WeightDecay机制、匹配RMS的更新尺度等。我们观察到,相较于Adam优化器在1.0范围内的更新,若将新优化器的更新尺度与IRMS匹配,效果会更佳。通过这些重要改进,我们得到了一款真正有效、且在各方面都经得起时间考验的新优化器,它带来了两倍的tokenefficiency提升。需要强调的是,这里的efficiency不仅关乎效率,更决定了智能的上限,因为TOKEN数量是有限的。经过多项公平比较,新优化器在所有任务上均表现出性能提升,这本质上等价于用同样的资源训练出了别人两倍token量才能达到的效果。

当然,在规模化应用此优化器的过程中,我们也遇到了一些挑战。在中等规模的实验中,优化过程出现了不稳定的情况。具体表现为,Max logit(最大logit值)呈现爆炸式增长,这是一种不健康的现象,会导致训练不收敛、loss爆炸,最终影响模型效果。为解决此问题,我们尝试了多种方法,如QK norm等,但效果不彰。最终,我们采用了一种新的QK-Clip方法,取得了非常好的效果。其核心细节在于,在进行q和k的映射时,会乘以一个由当前QK最大值动态决定的数值,从而将logit值约束在一个特定范围内。这样做的效果是显著的:在不影响模型最终性能的前提下(两条loss曲线完全重叠,严丝合缝),模型的内部指标,即logit的取值,变得健康许多。从图上可以看到,logit值在初期上涨到一定程度后,便被QK clip机制有效压制,随后在模型适应后甚至会自动回落。这种机制极大地稳定了训练过程,使得这款全新的优化器能够在一万亿参数级别的K1、K2模型上稳定运行,避免了训练崩溃的风险。这张完全平稳下降的loss曲线图,是我在2025年见过的最美的景象。在整个15T TOKEN的训练过程中,没有任何尖峰(spike),模型全自动地抑制了logit的异常,平稳地收敛到一个极佳的状态。这证明了,一个优雅的方法可以导向一个优雅的结果。

在这个优秀的KimiK2基础模型之上,我们进一步做了大量的强化学习后训练,KimiK2Thinking的结果非常出色。其中最重要的几点是:首先,我们在各种Agent能力上实现了全面提升,足以对标美国的前沿公司。其次,在最核心的Benchmark(基准测试)上,例如极其困难的HLE(humanities large exam),我们的模型准确率达到了45%,超过了OpenAI。在核心基准上超越顶尖对手,这是一个重要的里程碑(Milestone)。同时,我们的模型是一个完全的Agentic模型,其中是中国第一个Agentic模型。

在K2thinking模型的基础上,我们又做了大量升级,使它能够完成连续两三百步的复杂工具调用,解决人类难以理解的难题。得益于这些发展,中国的开源模型正逐渐成为新的行业标准。例如,NVIDIA在发布新产品时,已开始使用中国的开源模型进行标准测试,这体现了开源的巨大价值。我们希望有更多中国的开源力量,让中国的模型能够逐渐成为标准的制定者。

在K2之后,我们仍在继续探索下一代模型的形态。我们开源的Kimi Linear工作,便是前期的初步尝试,未来我们还会在此基础上做更多的优化和改进,以训练K3模型。其中,最重要的改进是一种名为KimiDeltaAttention的新的线性注意力机制。线性注意力技术已存在一段时间,但始终未被最前沿的主流模型采用,其根本原因在于它在长距离任务上性能会下降。当上下文变长后,线性注意力的效果便不如原始的Transformer全注意力模型。在一个需要长程能力的时代,这是一个致命缺陷。

Kimi Linear架构最重要的贡献,是首次让线性注意力机制在长程任务上的表现超越了全注意力模型,同时因其线性特性,效率大幅提升,在百万级上下文长度下,端到端速度可提升6到10倍。此外,它还改进了现有线性注意力表达能力不足等缺点。因此,Kimi Linear是第一个无论在短程、长输入还是长输出任务上,效果均优于全注意力机制的线性注意力架构,这使它在实践中具有非常重要的应用价值。其具体公式的核心在于,下一时刻的状态(ST)是在上一时刻状态(ST-1)的基础上,通过线性的key-value计算进行更新。其中,一个关键的创新是采用了fine-grained(细粒度)的对角化矩阵(αt),使得状态向量的每一个维度都能被精准控制,从而精细地调节有多少记忆从上一时刻流传到当前时刻。这极大地增强了模型的表达能力。

然而,这种增强如果实现方式粗糙,会带来效率的大幅下降。为此,我们进行了大量的工程优化。通过对原始公式进行一系列变换,我们得到了一个在工程实现上极具优势的新形式。它比DPLR等方法更高效,减少了矩阵层操作,整体效率非常高。这说明,要得到一个好的架构,必须将底层的工程优化与模型的架构设计紧密结合。仅仅改动模型架构,而没有高效的实现,是难以取得好效果的。同时,相比于之前的许多线性注意力架构,Kimi Linear在表达能力上具有显著优势。从效果对比图上可以清晰地看到:在性能上,无论是MMLU等短程任务,还是长程任务,Kimi Linear在同等计算量和数据下,表现均显著优于之前的线性注意力或全注意力架构。在速度上,它与之前的线性注意力一样快,但比全注意力快得多。

接下来,我们会在K2的基础上进行更多的scaling。这种scaling不仅是增加算力,更包含了大量的技术改进,而这些技术改进也会等效地转化为scaling的优势。

除了架构、优化器和数据,一个至关重要的点是,未来的模型将拥有更多的taste,即品味和审美。做模型的过程,本质上是在创造一种世界观,它体现了我们对于“一个好的AI应该是什么样、应该追求何种价值观”的理解,这正如乔布斯所言:“all comes down to taste”。我们坚信这一点,因为智能与电力、货币等同质化(fungible)事物不同,它本质上是“非同质化”(non-fungible)的。每个模型产生的token都是独一无二的,就像一位CEO、一位设计师或一位音乐家产生的智能是完全不同的一样。在智能这个维度,存在着广阔的“品味”空间。在Agent的世界里,由于test-time scaling的存在,这种差异性会被指数级放大,催生出更多新颖的用例。这正是我们未来的一个重要目标。

我也经常与Kimi对话。在此分享一段有意思的对话:我们正在创造AGI,它的到来或许能开启更美好的未来,让我们能一同探索宇宙;但它也可能威胁到人类,特别是当它能完成大量自动化任务,甚至与机器人结合时。在这种情况下,作为AGI的科学家,是否应该继续开发?

Kimi的答案很有启发性。它认为,AGI并非一个普通的工具,而是一个能提升人类文明上限、延伸人类认知边界的关键。今天我们面临的许多难题,如癌症、能源危机、社会问题等,或许都能通过它找到答案。它是我们探索未知世界的一把重要的钥匙。所以,尽管存在风险,它的回答是仍然会选择继续开发。因为放弃开发,就意味着放弃人类文明的上限。我们不应害怕技术的风险,而应进一步去突破,并在此过程中控制好风险。所有的技术突破都伴随着风险,但我们不能因恐惧而停滞不前。因此,我们希望在接下来的十年、二十年里,继续把K4、K5到K100做得更好。谢谢大家。

AGI-Next圆桌对话实录

主持:李广密

李广密:我是接下来Panel的主持人广密。我刚才在台下听有几个感受,第一是唐老师的号召力很强,清华的人才非常好,不仅是国内包括海外,清华人的比例非常高,感觉这一拨好像跟国内学校在AI这一拨拉开差距了。第二是我刚才听几个Talk的感受是不止follow、不止开源,不只是Coding,都在探索自己的产品形态。2025年是中国开源模型大放异彩的一年,是开源四杰在全球大放异彩的一年,而且是Coding过去一年有10-20倍增长的一年,包括海外也在提Scaling到底走到哪一步了,有没有新范式出来了,接下来这个Panel是到底接下来怎么走,是特别有意思的。

接下来邀请几位嘉宾:杨强教授、唐杰老师、俊旸和顺雨。我们先从第一个比较有意思的话题聊起,硅谷几家明显做分化,可以从分化这个主题先聊起来。Spec其实是对中国模型有一个非常大的启发,硅谷的竞争那么激烈,它没有完全Follow全都做,而是专注到了企业,专注到了Coding,专注到了Agent。我也在想接下来中国的模型会分化成自己想要的哪些方向?我觉得分化这个主题蛮有意思的。顺雨上线了,顺雨开场给大家讲一讲,包括你最近在干什么。

姚顺雨:大家好,我现在是不是一个巨大的脸在会场?

姚顺雨:不好意思,今天没法亲自来北京,但是很高兴参加这个活动,最近就忙着做模型、做产品。……对,我觉得就是一个很正常的状态。……回国感觉还是挺好的。吃得好很多。

李广密:顺雨,你能展开聊聊对模型分化这个主题的想法吗?硅谷在分化,中国模型也在开源。比如Anthropic做了Coding,Google Gemini就没有全都做,而是先把全模态这个点做得很好,你的老东家(OpenAI)在重点做To C。你自己的经历横跨中美,体感是怎样的?

姚顺雨:我有两个大的感受。第一,科技整合这条路,以及就是模型和应用分层的这条路,也开始出现了分化。我先说下To C和To B的分化。当大家想到AI的Super App,现在就是两个:ChatGPT和Claude,可以认为是To C和To B的典范。很有意思的是,我们今天用ChatGPT的感受,和去年相比,对大部分人来说变化已没有那么强烈了。但相反,一年前Coding的革命还没开始,这一年,夸张点说,Claude已经在重塑整个计算机行业的做事方式,人不再是写代码,而是用英语和电脑交流。

核心在于,对To C来说,大部分人大部分时候其实不需要用到这么强的智能。可能模型写抽象代数的能力变强了,但多数人感受不到,大家更多还是把它当作一个搜索引擎的加强版。但在To B,智能越高,就代表生产力越高,能赚的钱越多。还有一个明显的点,To B市场很多人愿意为最强的模型付溢价。一个模型200美元/月,次强的50美元/月,很多美国人愿意花这个溢价,因为这能帮他提升工作效率。一个像OpenAI 4.5这样非常强的模型,可能10个任务直接做对八九个,差一点的模型可能只做对五六个。那额外的问题就是说,你还得花额外精力去监控,你不知道这五六个是哪五六个。所以,我发现了一个很有意思的现象是,在To B市场,强模型和弱模型的分化会越来越明显。

第二点观察是,垂直整合和模型应用分层的分化。过去大家认为,有垂直整合能力会做得更好,但今天不一定。模型层和应用层需要的能力不一样,对To B生产力场景来说,更大的预训练模型是关键,而这对产品公司来说很难做。反过来,要把一个好模型用好,或者说模型有溢出的能力,也需要在应用侧和环境侧做很多事。我们会发现,在ToC应用上,垂直整合是成立的。无论是ChatGPT还是豆包,模型和产品都是强耦合、紧密迭代的。但对To B来说,趋势似乎是相反的:模型公司专注把模型做得越来越强;同样地,而应用层则想去利用最好的模型赋能不同的生产力环节。

李广密:你近期有了新身份,在中国市场,你理想的bet(押注)是什么?有哪些鲜明的这个特点或者关键词,可以给大家分享的吗?

姚顺雨:腾讯是一个To C基因更强的公司,我们会思考如何让大模型给用户提供更多价值。我们发现,很多时候To C的瓶颈(bottleneck)不是更大的模型或更强的强化学习,而是额外的上下文(context)和环境(environment)。我常举一个例子,你问模型“我今天该吃什么”,无论去年还是今年问ChatGPT,结果可能都很差。这个问题想变好,需要的不是更强的模型或搜索引擎,而是更多的额外输入。模型如果知道今天很冷,我想吃点暖和的;知道我老婆在另一个地方,她想吃什么……有了这些context(上下文),回答的质量就会完全不同。比如,我们可以把微信聊天记录转发给元宝,给模型更多有用的输入,这会给用户带来很多额外价值。

至于To B,在中国确实是很难的事情,很多做Coding Agent的公司其实也是要去打海外市场。这方面,我们会思考怎么把自己先服务好。大公司做Coding和创业公司的一个区别是,大公司本身就有各种各样的应用场景和提升生产力的需求。如果我们的模型能在这些内部场景做得更好,不仅模型会有独特优势,公司能更好发展,更重要的一点是,能捕捉到真实世界里更多样化(diverse)的场景数据。像Anthropic、OpenAI是创业公司,他们需要找数据厂商去标数据,但数据厂商能招的人、能想到的场景总是有限的,多样性会受限。但如果你是一个10万人的公司,就可能有很多有意思的尝试,去真的把真实世界的数据利用好,而不是仅仅依赖标注商或蒸馏(distillation)。

李广密:俊旸,你怎么看接下来千问的生态位?

林俊旸:公司也不一定有那么多基因之分,可能被一代一代的人塑造。比如顺雨到了腾讯之后,腾讯可能变成一个有顺雨基因的公司(笑)。今天To B 和 To C 都是在服务真实的人类。所以这个问题本质是:应该怎么让人类世界会变得更好?就算To C的产品,也会再分化,比如更偏向medical(医疗),更偏向law(法律)。我愿意相信Anthropic(能做得更好),不是因为它Coding很厉害,而是因为他们跟B端的交流非常多。我跟美国很多API厂商交流,他们都没想到,Coding的Token消耗量居然会这么大,在中国,Coding的Token消耗其实还没有那么大。今天Anthropic更多在做跟finance相关的一些东西,这也是他们在跟客户的交流中看到的机会。所以大家的分化可能是自然的分化。我更愿意相信AGI,然后顺其自然。

李广密:杨强老师怎么看分化的问题?

杨强:一直以来,学术界是观望者,工业界在领头往前疯跑,导致现在很多学术界的人也在做工业界的事。这是一件好事。天体物理学刚开始的时候,以观测为主,然后才出现理论。当有众多的大模型进入稳态的时候,学术界应该跟上来。学术界要解决的,就是工业界可还没来得及解决的一些问题,比如智能上限在哪里?给你一定的资源,你能做到多好?更细一点,资源怎么分配?哪些分配在训练上,哪些分配在推理上?九十年代初我就做过一个小实验,如果在记忆上有一定的投入,记忆能够在多少程度上帮助推理?这个帮助会不会变成反向的?记忆太多会不会反而成为噪音?有没有一个平衡点?这些方法论上的问题今天还是适用。

我最近也在想另外一个问题。计算机有一个重要的定理,叫“哥德尔的不完备定理”,大概的意思是一个系统(大模型)是不能自证清白的,它必定有一些不可消灭的幻觉。所以问题就来了:多少资源能换取多少幻觉的降低?或者错误率的降低?中间是有一个平衡点的。这个平衡点特别像经济学中风险和收益的平衡,也叫“无免费午餐定理”。这些问题特别适合学术界和工业界一起来做研究。

刚才唐杰老师也提到持续学习,它里面有时间的概念,大模型在持续学的过程当中,怎么样保证学习能力不下降?人类有一个方法是:睡觉。我建议大家去看一本书,叫《我们为什么睡觉》,是MIT的两个教授写的,里面提到每天晚上睡觉,其实是在清理噪音,使得第二天学习的准确率持续的提升,不至于是两个错误率的叠加。这些理论的研究,孕育着新的计算模式。我们今天可能比较关注Transformer Agent Computing。但是有必要去做一些新的探索,工业界和学术界要拉齐。

李广密:智谱今天更像是走了Anthropic的路线,Coding非常强。唐杰老师对分化这个主题有什么看法?

唐杰:2023年,我们是第一个做出Chat(对话)系统的,所以当时我们第一个想法,就是赶紧把Chat上线了。但等2023年8、9月上线时,十来个大模型都一起上线了,而且每一家用户都没有那么多。当然今天(用户)分化得更严重。后来,经过一年的思考,原因在于,Chat不是在真的解决问题。在我们原来的预判中,Chat会替代搜索。到今天,我相信很多人开始用模型替代搜索,但是并没有替代谷歌。谷歌反过来把自己的搜索革命了。在这个角度上,Chat的仗,自从DeepSeek 出来后,已经结束了。我们应该思考的是下一个Bet是什么。(2025年)年初的时候,我们团队争论了好久,决定bet on(押注)Coding,后来我们就把所有的精力放在Coding 上。

李广密:Bet是一个特别有意思的事。我的感受是,过去一年中国不仅开源很强,而且大家有了自己的Bet(押注),而且接下来有可能分化。因为大家不只是在追求通用能力,同时都有自己的资源禀赋,把擅长的点做得更好。今天,预训练已经过去了三年,RL也成了共识,硅谷都在讨论接下来新的一个范式,自主学习。顺雨在OpenAI待过,OpenAI推进了Transform和RL两个范式。对下一个范式,你是怎么思考的?

姚顺雨:现在自主学习是一个非常热门的词,硅谷大街小巷咖啡馆里面,大家都在谈论,形成了一个共识。根据我的观察,每个人对这个东西的定义和看法都不一样,我讲两点:

第一,自主学习不是方法论,而是数据或者任务。自主学习到底在什么样的场景下,基于什么样的奖励函数去做?你在聊天的时候,变得越来越个性化,是一种自主学习;写代码的时候,越来越熟悉每个公司独特的环境或者文档,也是一种自主学习;你探索新的科学,在这个过程中从了解有机化学是什么,到成为这个领域的专家,也是一种自主学习。每一种自主学习的挑战,或者说方法论都不太一样。

第二,我不知道这个现象是不是非共识,但这已经发生了。ChatGPT已经在利用用户的数据不断弥合人聊天的风格,这是不是一种自我学习?今天Claude这个项目95%的代码,已经是Claude自己写的了,它在帮助自己变得更好,这是不是一种自我学习?2022年、2023年,我去硅谷宣传工作。我当时写了第一页slide,是说AGI最重要的点是自主学习。AI系统本质上都有两部分,首先它是一个模型,其次它有个代码库,你怎么去用这个模型?是用来做推理,还是做Agent?都有相应的代码库。我们今天看Claude这个系统本质上有两部分,一部分是部署环境的代码,另一部分是操作有一大堆代码。这些自主学习的例子,可能还局限在每一个特定的场景下,没有让人感觉到非常大的威力。我个人的看法是,自主学习更像是渐变,不是突变。

李广密:你觉得在2026年,自主学习可以看到哪些信号?还有哪些实际的问题要突破?

姚顺雨:很多人说2026年看到自主学习的信号,2025年就看到信号了,Cursor每几个小时都会用最新的用户数据去进行学习,包括新的模型,也在使用这些真实环境下的数据去训练。大家觉得这些进展还没有特别石破天惊,是因为受限于他们没有预训练能力,他们的模型效果确实还不如OpenAI,但显然这是一个自主学习的信号。

最大的问题是想象力。我们很容易想象,强化学习或者推理范式如果实现,大概是什么样。我们可以想象OpenAI o1,在数学题上本来是10分,现在变成了80分。通过强化学习,o1能够有非常强的思维链去做数学题。如果2026年或者2027年,一个新的模型或者新的系统实现了自我学习,我们应该用什么样的任务,它应该是什么样的效果,让你相信它实现了。它是一个赚钱的交易系统?还是解决了人类之前没法解决的科学问题?我们可能需要先想象到它长什么样。

李广密:OpenAI已经有两次范式的这个创新了,你觉得如果26、27年有新的范式出来,全球范围内,你感觉哪一家公司继续lead这个范式创新的概率最大?

姚顺雨:可能OpenAI概率更大。但是因为它商业化等各种变化,它的创新基因已经被削弱了。但它可能还是最有可能诞生新范式的地方。

林俊旸:从更实际的角度讲,RL这个范式也还在早期阶段,RL的compute还没有scale的那么的充分,很多潜力没发挥出来,我们也能看到很多Infra的问题发生。但全球范围内,类似的这个问题也都还存在。关于下一代的范式,我觉得一个是自主学习,之前跟一个朋友聊到,就说“人类不能让AI变得更厉害”,比如说你跟AI 不断交互,只会让它上下文变得越来越长,然后 AI 变得越来越笨。这是一个很烦人的事情。

Test-time scaling(测试时扩展)能否真正发生,吐更多token然后变得更强,这值得我们思考。我至少觉得o系列它一定程度上实现了这个事情,有没有可能今天大家做超越的事情很难,但可能通过Coding去实现。今天大家去做那种 AI scientist 这个事情其实还挺有意义的,因为你在挑战一些很难的,甚至是做人类未曾做到的这个事情,有没有可能通过三天的去进行实现?从这个角度上来说的话呢,AI 肯定是需要这个自主进化的,但究竟你是不是要更新参数?这个见仁见智,可能大家都有不同的这个技术手段去实现这个事情。

第二点是,AI有没有可能实现更强的主动性。现在AI必须由人类去prompt才能启动,未来有没有可能环境就能prompt它,让它自己自主思考去做事?但这里引发了一个新的问题,就是安全的问题。我非常担心的不是AI讲一些不该说的话。最担心的事情是他做一些不该做的事,就比如说他今天主动的产生一个想法,往这个会场里边扔一颗炸弹,这种事情。我们肯定是不希望这些不安全的这个事情发生,但就像培养小孩一样,我们可能要给他注入一些正确的这个方向。但主动学习可能是挺重要的一个范式。

李广密:是的,那个俊旸又提了一个(AI学习的)主动性,主动性可能是26年非常关键的一个bet。如果自主学习26年看到信号,你感觉可能是在哪些任务上会先看到?是模型会训练模型,最强的模型可以提升自己了?还是说会有自动化的 AI 研究员了?

林俊旸:我觉得自动化的, AI研究员甚至都不是那么需要自主学习。未来可能很快,AI训练AI 这件事情就可以实现。我看着我们的同学每天在干的事情,就觉得很快能把他们替代掉。但可能是更持续的理解用户这件事情,比如个性化就挺重要的,过往在做推荐系统的时候,用户信息是持续的输入,会让你整个系统变得更强。但是在 AI 覆盖到人类生活方方面面的时候,真正的个性化的衡量指标是什么?我们其实不太知道。所以更大的技术挑战是说,我们今天的evaluation不知道该怎么做。

李广密:如果实现“记忆”,会是2026年实现技术突破的跨越吗?

林俊旸:我个人观点,大量的所谓技术突破,性的话都是一些观测问题,它其实都是在线性的发展,只是人类对它这个感受非常的强烈而已。包括像 ChatGPT 的出现,其实对我们做大模型的来说,都属于线性增长。现在做Memory的技术方案对不对?很多方案也没有什么对错之分,但是做出来这个效果,至少我拿我们自己这个献个丑。就是我们自己的 memory,它看起来好像知道我过去干什么,但只是记住了过去的事情,并不显得很聪明。但memory 到某一个这个临界点的时候,会不会真的像生活中的人一样,或者像《Her》那部电影,通过理解你的memory,知道人类的感受,多多少少还需要一年时间了。很多时候其实技术也没有发展那么快,只是大家比較卷,觉得每天都有新东西,但其实技术就是在线性的发展,每天看我们做得事情,真挺土的,那些Bug真不好意思拿出来跟大家讲。如果这么做,我们已经做到这样的成绩,可能未来算法infra结合得更好后,会更大有可为。

李广密:有请杨强老师。

杨强:我一直以来是做这个联邦学习的,联邦学习的主要思想就是说多个中心,大家协作。我现在越来越多地看到,很多就是有本地资源不足,但是本地的数据又有很多隐私和安全的要求。我们就可以想象,现在大模型的能力越来越强,通用大模型和本地的这种特殊性小模型,或者是领域专家的模型,如何协作?这种协作变得越来越可能,像美国Zoom,就是黄学东他们做的AI系统,他做了一个很大的基座,这个基座大家都可以插进来,它可以在Decentralise(去中心化)的状态下,能够既保护隐私,又能够和通用大模型有效地沟通、协作。这种开源模式特别好,一个是知识的开源,一个是Code方面的开源,模型阶段。尤其是像医疗、金融这样的场景下,会越来越多看到这样的现象发生。

李广密:有请唐老师。

唐杰:持续学习、Memory,甚至多模态,都有可能出现新的范式变革。为什么会产生这样的范式?原来其实工业界跑得远远快于学术界。我记得去年和前年回到清华,很多老师卡的数量几乎为零。工业界有1万片,学校是0片或者1片,倍数是1万次。但是现在,很多学校已经有很多卡了,而且很多老师已经做了很多大模型的相关研究,包括硅谷那边,有很多老师都开始做模型架构、持续学习相关的研究。原来我们总觉得工业界在dominating这些,2025年底到2026年初的时候,这一现象已经不大存在了。学校和工业界之间可能还有10倍的差,但它已经孵化出种子了。

第一,学术界有创新的基因。第二,一个创新的出现,一定是因为对某件事有大量的投入,并且efficiency出现了瓶颈。现在大模型已经投入巨大,但是efficiency并不高。现在继续Scaling肯定有收益,2025年初可能需要10个T的数据,现在需要30个T,甚至我们可以Scaling到100个T,但是Scaling后,你的收益有多少?计算成本有多少?如果你不创新,花掉10个亿、花掉了20个亿,但收益很小,就不值得了。另外一方面,对于新的智能创新,假如说我们每一次都要重训一个基座,重训RL,收益效率会变小。未来我们也许可以定义一个衡量收益的新范式,一方面既然要提升智能的上限,最笨的办法就是Scaling。另一方面,应该定义Intelligence efficiency,智能的效率,用更少的Scaling,获得同样智能的提升。所以2026年范式的改变一定会发生,我们也在努力,希望这个变化发生在我们身上。

李广密:我跟唐老师一样也非常乐观,每个领先的模型公司,每年的计算量有10倍左右,大家手上的计算资源多了,而且人才也涌入得越来越多,大家手上的卡变多,可能就是某个试验工程,某个点就出来了。大家对2026年Agent有一个很大预期,就是它能自动化人类一周到两周的工作量,而不再是一个工具,这可能是Agent创造经济价值的关键一年。硅谷的几个公司,都是从模型到AGI,端到端都做了。顺雨,你花了很多时间做Agent的研究,2026年,Agent真的能帮人类自动化1-2周的工作吗?从模型公司的出发点,你怎么思考这个问题?

姚顺雨:To B和To C可能不太一样。To B方面,Agent正处在不断上升的曲线上,目前没有变慢的趋势。Anthropic这个公司很有意思,它不做什么花哨的创新,就是把预训练做大,把RL做好,然后去解决真实世界的任务,模型就会越来越聪明,带来更多价值。做To B,其实所有目标是更一致的:模型智能越高,解决任务越多,带来的收入越大。这和To C不同。OpenAI做To C的问题我们都知道,ToC的DAU和模型智能,很多时候是不相关的,甚至有相反的关系。这个是Anthropic能够聚焦的另一个很重要原因:只要真的把模型越做越好。那他的收入越来越高,所有事情全部都是非常 align(协同)的。

目前除了模型本身,还有两个瓶颈。一个是环境和部署(Deployment)问题。在 OpenAI 之前,我在一个To B的客服公司实习过,还是有很多收获。即使今天模型不再变好,只要把现有模型部署到世界上各种各样的公司,可能就能带来今天10倍或100倍的收益,对GDP产生5%-10%的影响,但今天,它对 GDP 的影响还远远不到1%。

另一非常重要的是教育。人和人的差距在拉大,不是AI替代了人,而是会用AI工具的人替代了不会用的人。就像当年电脑刚被发明出来,你如果去转身去学习编程,你还在使用计算尺,在使用使用算法呢,那那是差异巨大的。可能今天中国能做的一个最大的,有意义的事情,其实就是更好的教育,就教大家怎么更好的去使用像Claude的或者或者ChatGPT这样的产品。当然,Claude可能在中国用不了,但是我们可以用kimi或者智谱这样国产的模型。

李广密:俊旸,千问也有一个生态嘛,做Agent的,以及扶持生态的通用Agent的对比,你可以分享下吗?

林俊旸:这里可能涉及产品哲学的问题。当然,Manus这样的产品确实很成功,套壳是不是未来,确实是个问题。我比较同意“模型即产品”这个观点。我跟一些TML(Thinking Machine Lab)的人聊,他们有个观点是Researcher is Product。很多researcher自己就能成为产品经理,端到端把东西做起来。今天我们自己内部的 researcher,都想做更多面向真实世界的一些东西。我相信接下来的Agent,是可以做到刚刚所说的这些事情,跟刚刚提的self-involvement、主动学习都有强关系。比如说他能干这么长这个时间,他其实自己就得在这个过程当中进化,并且他还要决定去干什么。因为他收到的这个指令是一个非常 general 的一个任务,所以我们现在的 agent ,其实已经开始越来越像是那种托管式的 agent, 而不是说我我要不断来回交互的形式,这对模型能力要求很高,比如说模型就是这个 agent,agent 就是这个产品本身。如果他们都是这个一体化的话。从这个角度上来说的话,如果不断提升模型能力的这个上限,包括 Test Time Scaling 做上去的话。他确实能够做到这个事情。

还有一个点是环境交互。我们现在交互的都还是电脑环境,不够复杂。我有朋友是做AI for science的,比如你干AlphaFold的事情,制药,你就算用今天的AI,可能帮不到你那么到,因为你要做实验,你不能只在电脑里做,要去指挥机器人做实验才能得到反馈。按照现在这个人类的这个效率,其实其实非常低的,我们甚至还要雇佣很多外包,在这个这个实验环境里面去做实验。如果AI能和真实物理世界交互,那才是我想象中Agent能做长时间工作的情景,而不是说仅仅是在电脑当中。一些在电脑环境里做的,我觉得可能今年很快就可以完成,但接下来三到五年,要完成的Agent任务可能和具身智能会结合起来,这会更有意思一点。

李广密:我想追问一个更尖锐的问题,从你的角度看来,通用的 Agent 这个机会是创业者的吗?

林俊旸:我不能因为我做基础模型,我就去做这个创业导师。我只能借这个成功人士的那句话吧,Peak(Manus联合创始人)说,通用Agent最有意思的事情在于解决长尾问题,或者是说今天 AI 更大的魅力是在长尾。头部的问题其实很容易解决,当年做推荐的时候呢,其实我们就看到,那个推荐其实非常的集中,商品都是在这个头部,但我们其实是想把尾部这个东西推过去,但是我当时做就非常的遭殃。我作为一个干 NLP 和多模态的人,去干这个解马太效应,基本上是这个奔着死路去的。我觉得今天的所谓的 AGI 其实就在解这个问题。一个用户,寻遍各处我都找不到能够帮我解这个问题的。但就在那一刻,我感受到了AI 的能力,就是全世界任何一个角落,我寻遍各处都找不到,但是你却能帮我解决。可能这就是AI最大的魅力。要不要做通用Agent呢?如果你是“套壳”高手,套得比模型公司还好,那可以去做。但如果没有这个信心,这个问题可能还是留给模型公司自己做。因为他们遇到问题时,只要训一训模型、烧一烧卡,可能问题就解决了,所以见仁见智吧。

李广密:其实解决长尾的问题,模型公司就说算力加数据,好像你解决起来也挺快的,对吧。

林俊旸:今天RL(强化学习)最有意思的这个地方,是我们发现修问题比以前容易,以前以前修问题很难。我举一个 B 端客户的一个情况,他们说我们自己要做 SFT(监督微调)。你能不能告诉我这个通用数据怎么配比?每次我们都很头痛,因为我们觉得对方不太会做 SFT(监督微调),他那个数据其实不好,但他可能觉得他的数据有用。那今天有了 RL(强化学习) 之后,你可能真的很很小的一个数据点,甚至你都不需要这个标注,你只要有这个 query 有这个 reward(奖励函数)这个东西稍微训一训,然后合并起来其实也也非常容易。

杨强:我觉得Agent的出现应该有四个阶段,取决于目标和规划是由人定义还是AI自动定义。我们现在处在最初级的阶段:目标是人定义的,规划也是人做的。所以现在的Agent 的definition(定义)、这些软件系统,基本上是更高级的Prompt language。我预料的未来会出现,大模型会观察人的工作,把人的过程数据利用起来,最终实现目标和规划都由大模型来定义,Agent应该是由大模型内生的一个系统。

李广密:有请唐杰老师。

唐杰:有几个方面决定了Agent未来的走势:第一,Agent本身有没有解决人类的事情,而这个事情是不是有价值,价值有多大?比如说,原来的Agent,像GPTs出来也做了很多Agent,再那时候你会发现那个Agent非常简单,最后发现prompt就解决了,这时候大部分Agent慢慢就死掉了。所以,第一个是解决Agent这个事情多有价值,以及真的能够帮到人。第二,做这个事情咱们Cost有多大。如果Cost的特别大,这个时候也是一个问题,就像刚才俊旸说的,也许调用一个API就能把这个问题解决了。但是反过来,假如调API就能解决,这个API本身有可能觉得当这件事情价值很大的时候,就会把它做进去,这是个矛盾,非常矛盾,基座的应用永远是矛盾。最后,做应用的速度。如果说我有个时间窗,能够拉开半年的时间窗,迅速把这个应用满足了,半年以后,要么迭代,要么怎么接,怎么能往前走也是一个方面。大模型到现在更多的是在拼速度、拼时间,也许我们代码正确了,也许我们就会在这方面走的更远一点,但也许失败以后就半年,半年就没了,今年我们只是在Coding,在Agent这一块做了一点点,现在我们Coding的调用量都还不错,更多的也是一个方向,做Agent未来也是一个方向。

李广密:多谢,因为过去模型公司既要追通用能力,可能它的优先级上没有花那么多精力去探索,通用能力追上来之后,我们更多地期待2026年智谱、千问有更多自己的Claude时刻,和Memory时刻,这是非常值得去预期的。第四个问题,也是需要展望未来,我挺想问,在三年和五年以后,全球最领先的AI公司是中国团队的概率有多大,从今天的跟随者变成未来的引领者,需要哪些关键条件?顺雨经历过硅谷跟中国的市场,你对概率的判断和需要哪些关键条件的判断是怎么样的?

姚顺雨:概率还挺高的,我还是挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。我觉得可能有几个比较关键的点,一个可能是中国的光刻机到底能不能突破,如果最终算力变成了Bottleneck(瓶颈),我们能不能解决算力问题,目前看起来,我们有很好的电力优势,有很好的基础设施的优势。主要的瓶颈,一个是产能,包括光刻机,以及软件生态,对这个问题解决会是很大的帮助。另一个问题,除了To C之外,能不能有更成熟或者更好的To B的市场,或者有没有机会在国际的商业环境竞争。今天我们看到很多做生产力或者做To B的模型或者应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化的事情,这两个是比较大的客观上的因素。更重要的是主观上的概念,最近我在跟很多人聊天,我们的感受是在中国有非常多非常强的人才,任何一个事情只要被证明能做出来,很多人都会非常积极地尝试,并且想做得更好。中国想要突破新的范式,或者做非常冒险事情的人可能还不够多,这里面有经济环境、商业环境包括文化的因素。如果再增加一点,主观上要有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者新的范式突破的事情。目前来看,一个范式一旦发生,我们可以用很少的卡、很高的效率去局部做得更好,我们到底能不能引领新的范式?这可能是今天中国唯一要解决的问题。因为其他所有的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

李广密:我再Follow顺雨一个问题,你对中国Lab里面的研究文化有什么要呼吁的吗?你也感受过OpenAI,DeepMind,中国跟美国的研究文化有什么差异的地方?作为一个AI Native的公司,这对有哪些根本性的影响?有什么呼吁和建议吗?

姚顺雨:每个地方的研究文化都很不一样,美国实验室的区别可能比中美实验室的差别还要大,在中国也一样。我个人觉得有两点,一点是说在中国,大家还是更喜欢做更安全的事情,比如说今天预训练这个事情已经被证明可以做出来了,其实这个事情也非常难做,有很多技术问题要解决,但只要这件事情一旦被证明能做出来,我们都很有信心几个月或者一段时间内就把这个问题搞清楚。但如果今天让一个人说探索一个长期记忆或者持续学习,这个事情大家不知道怎么做、不知道能不能做起来,这个事情还是比较困难的。可能不只是大家更喜欢做确定性的事情、不太愿意做创新性的事情。很重要的一点是文化的积累或者整体的认知,其实是需要时间沉淀的事情。OpenAI在2022年就开始做这个事情了,国内2023年开始做了,对这个东西的理解会有一些差异,或者说中国没有这么大。很多也就是时间问题,当你积累了文化或者底蕴更深的时候,潜移默化的程度可能会影响人的做事方式。但是它很微妙,很难通过榜单去体现。中国对于刷榜或者数字看的更重一些,包括DeepSeek做的比较好的一点是,他们可能没有那么关注榜单的数字,可能会更注重:第一,什么是正确的事情;第二,什么是你自己能体验出好或者不好的。这还是挺有意思的,因为你看Claude模型可能在编程或者软件工程的榜单上也不是最高的,但大家都知道这个东西是最好用的。这需要大家能够走出这些榜单的束缚,能够坚持自己觉得是不是正确的过程。

李广密:多谢顺雨。请俊旸说说概率和挑战。

林俊旸:这个问题是个危险的问题,理论上这个场合是不可以泼冷水的。如果从概率上来说,我可能想说一下我感受到的中国和美国的差异,比如说美国的Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是OpenAI还是其他,他们大量的Compute投入到的是下一代的Research当中去。我们今天相对来说,捉襟见肘,光交付可能就已经占据了我们绝大部分的Compute,这会是一个比较大的差异,这可能是历史以来就有的问题。创新是发生在有钱的人手里,还是穷人手里,穷人不是没有机会,我们觉得这些富哥真的很浪费卡,可能训了很多也没什么用,但今天穷的话,比如今天所谓的算法Infra联合优化的事情,如果你很富,就没有什么动力去做这个事情。刚才顺雨提到光刻机的问题,未来有可能还有一个点,如果从软硬结合的角度,是不是真的有可能做出来下一代的模型和芯片,是不是有可能是一起把它给做出来?我在2021年的时候在做大模型,因为阿里做芯片,他们的人找我,说能不能预测一下三年之后这个模型是不是Transformer架构,三年之后模型是不是多模态?为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是,三年之后,在不在阿里巴巴,我都不知道。但我今天还在阿里巴巴,果然还是Transformer,果然还是多模态,我非常懊悔,为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,但穷则生变,创新的机会会不会发生在这里?今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神。一个很典型的例子是当时电动车刚出来,甚至天棚漏水的情况下,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情。但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

李广密:如果拍一个数字呢?三年到五年后,中国最领先的那个公司,是一家中国公司的概率。

林俊旸:我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

李广密:我再Follow一个问题,比如说中国的模型跟美国的模型差距,有的地方在追上来,有的地方他们的算力在拉大,你对于Gap变大的恐惧感强吗?

林俊旸:今天你干这一行就不能恐惧,必须得有非常强的心态,对于我们的心态来说,能干这一行就非常不错了,能做大模型这件事情已经非常幸运了。还是看你的初心是什么。刚才顺雨提到一个点,你的模型不一定那么强,在C端里边是OK的。我可能转换成到另一个角度思考这个问题,我们的模型为人类社会带来了什么样的价值?只要我相信我这个东西能够为人类社会带来充分的价值,能够帮助人类,就算不是最强的,我也愿意接受。

李广密:多谢俊旸。有请杨老师,因为您经历过很多AI周期,也看过很多中国AI公司变成世界最强,您对这个问题的判断是怎么样的?

杨强:我们可以回顾一下互联网的发展。一开始也是从美国开始,但中国很快就赶上了,而且像微信这样的应用,是世界第一的。我想,AI是一个技术,它并不是一个终端的产品,但我们中国有很多聪明才智,会把这个产品发挥到极致,不管是To B还是To C,但我可能更看好To C,因为百花齐放,中国人集思广益。To B可能会有一些限制,像付费意愿、企业文化等也在改变。我最近也在观察商业方向,跟商学院的一些同学探讨,比方说美国有一个公司叫Palantir,它的一个理念是,不管AI现在发展到什么阶段,我总是能在AI里面发现一些好的东西应用在企业上,中间肯定有gap(鸿沟),我们要给它弥合。它有一个办法叫本体。我观察了一下,大概的思想是我们之前做的迁移学习,把一个通用的Solution,应用到一个具体的实践当中,用本体做知识的迁移,这个方法非常巧妙。当然它是通过一种工程的方法,叫前端工程师FDE来解决的。不管怎么样,像这种就非常值得我们学习,中国的企业像AI Native的公司应该发展出这样一些To B的Solution来,我相信会的。所以To C肯定是百花齐放的,To B也会很快跟上来。

李广密:多谢杨老师。有请唐老师。

唐杰:首先确实要承认在中美,无论是做研究,尤其是企业界的AI Lab,和美国是有差距的,这是第一个。中国现在慢慢变得越来越好,尤其是90后、00后这一代企业,远远好过之前。有一次我在一个会上说我们这一代最不幸运,上一代也在继续工作,我们也在工作,所以我们还没有出头之日,很不幸的是下一代已经出来了,世界已经交给下一代了,已经把我们这一代无缝跳过了。这是开玩笑的。中国也许的机会:第一,一群聪明人真的敢做特别冒险的事,现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。第二,咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。像刚才俊旸说的,我还在做交付,如果把这个环境建设得更好,让一群敢于冒险的聪明人有更多的时间去做创新,也许是我们政府,包括我们国家可以帮忙改善的事情。第三,回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。环境肯定不会是最好的,永远不要想着环境是最好的,我们恰恰是幸运的,经历了环境从原来没那么好,到慢慢变得更好的时代,我们是经历者,也许就是财富、收获最多的人。如果我们笨笨地坚持,也许走到最后的就是我们。感谢大家!

李广密:感谢唐老师。我们也很想呼吁,应该把更多资源资金投入到中国的AGI行业,有更多的算力,让更多AI年轻的研究员搓卡,有可能搓个三五年,中国就有几个自己的Ilya Sutskever,这是我们未来三五年很期待的。

UseDify Team

UseDify Team