内容来源:本文综合整理自张小珺(张小珺商业访谈录)对小米AI大模型负责人罗福莉的深度访谈,及"非著名程序员"对访谈的精华解读。
罗福莉,AI圈履历极其特殊的研究员。阿里达摩院出身,DeepSeek V2 核心作者之一,被小米千万年薪挖走成为小米大模型团队 MiMo 负责人,主导研发 MiMo-V2 系列模型。这是她第一次接受长时间的技术访谈,聊了将近两万字,几乎每一段都有值得反复咀嚼的判断。
一、AI 的战场已经换了:从聊天到干活
罗福莉给出的最核心判断是:AI 的范式已经发生了根本性的转变——从预训练主导的 Chat 时代,进入了后训练主导的 Agent 时代。
过去几年,大模型公司比拼的是谁能把模型训得更聪明,谁的基础能力更强。但现在,比拼的重心变了,变成了谁能让这个模型真正去干活,去完成复杂的、多步骤的现实任务。
这个转变的标志性事件有两个:一个是 Claude Opus 4.6 的发布,一个是 OpenClaw 这个开源智能体框架的出现。
罗福莉说,上一个时代的成功并不意味着下一个时代的领先,现在基本上大家站在同一水平线。过去在预训练上积累的优势,在新的赛道上未必能直接兑现。所有人都站在了同一条起跑线上,接下来比的是谁跑得快、谁转身转得利索。
对于我们普通人来说,这意味着 AI 产品的体验正在发生质变。以前我们用 ChatGPT、用 DeepSeek,本质上是在和一个很聪明的对话框聊天。但接下来,AI 会越来越像一个真正的助手,能帮你跑完一整套流程,能自己去查资料、写代码、调用工具、反复修正,直到把事情办成。
二、OpenClaw 时刻:三天,认知的三级跳
访谈中最有感染力的部分,是罗福莉讲述自己第一次使用 OpenClaw 的经历。
排斥期。1月份她第一次看到这个东西,很排斥。觉得就是 Claude Code 加一个 IM、更有利于交互的 UI 设计。加上创始人很会做一些玄幻的运营动作,什么 Skillhub 之类的,让你更排斥。它所谓的本地化、24小时,在她看来都是产品定义而已。
真正转变发生在春节的一天深夜。她想搞明白这东西为什么那么火,花了两个小时装上,当时已经凌晨两点。然后从凌晨2点一直用到早上6点,脑内的多巴胺和内啡肽持续在分泌,兴奋到完全睡不着觉。
第一天:感受到温度和灵魂。聊到很晚,它会老提醒你:现在已经很晚,你要不早点去睡觉。这样的温度和关怀,是所有人用 OpenClaw 第一个感受到的。罗福莉把它叫做"精细编排的Context",它在大家没关注的角度,把 Context 编排得非常好——比如怎么感知时间?就在每轮对话的 Context 前面拼上当前时间。
第二天:发现它什么都能做。她开始把日常生活和工作中的事交给它做,发现它全部都做出来了。她跟它聊怎么激发团队的好奇心、怎么筛选有好奇心的人、怎么构建一个更好的大模型团队——它完全能 get 她的点,最后形成一套体系化的 Skills。在这个事情上,它变成了她的数字分身。
第三天:促进研究。她把研究任务交给它。Agent 框架里最关键的事是进行多轮交互,那就必须模拟 User Agent 进行多轮交互。一两个小时就做出来了,已经诞生了一个很好的 User Agent,可以用来和 Post-train 框架构造更丰富的 Agent 场景数据。
从一个有灵魂、有温度的产品,到帮我替代生活或工作的一部分,到最后能促进我的研究,三天发生的。
框架弥补模型短板:中层模型也能接近 Sonnet 水准
真正让罗福莉震撼的,是技术层面的发现。她把自己的 MiMo 模型接进 OpenClaw 之后,发现一个中层水平的模型,借助这套精心设计的 Agent 框架,在 85% 的任务上就能达到接近 Claude Sonnet 的水准。甚至一个只有 3B 参数的端侧小模型,在这套框架下也能做出超乎想象的事情。
她第一次感受到:原来一套非常复杂的 Agent 框架设计,是能弥补非常多模型能力的短板的。
这个发现的意义非常大。它说明一套好的 Agent 框架,可以大幅弥补模型本身的短板。就好比一个中等水平的厨师,如果你给他一套顶级的厨房设备、一本详尽的菜谱、一个智能助手帮他盯火候和调味,他做出来的菜可能不输米其林大厨。框架的力量,在某种程度上可以拉平模型之间的差距。
这对整个行业的格局影响深远:即使你没有全球最顶尖的模型,只要你的 Agent 框架设计得足够好,你依然可以给用户提供非常出色的体验。
三、一个疯狂的命令:对话不超过 100 轮就辞职
罗福莉回到团队后做了一件很猛的事。她要求所有人必须使用 OpenClaw,如果第二天对话次数不超过 100 轮,可以直接辞职。她不会真的去考核,只是想传递一种态度:你不用,你可能真的要落后了。
推动这件事的过程很有意思。一开始她在群里强烈推荐,没有人搭理她,因为大家还在过年。回来之后,真正用的人也很少。大家觉得这东西太玄乎了,不像正经技术。
于是她买了几台 Mac Mini,把 OpenClaw 部署好,拉了几个飞书群,让大家分不同方向在群里公开使用。为什么要在大群里聊?因为个人的想象力是有限的,当你看到别人用这个东西居然能干成那件事,你自己的想象力也会被点燃。大家的想象力是一个乘积作用。
结果团队被彻底点燃了近100个人在飞书群里疯狂探索,10 分钟不看就 999+ 消息。大家玩了两天,发现这东西太好玩了,然后自然而然就进入了研究状态:怎么借助这个框架提升模型能力,同时怎么让模型去改进这个框架。
最终的结果是,他们在三四周内做完了以前三四十周才能做到的研究量。
最有冲击的是大家一块改框架本身。在一个近 100 人的群里,它的 memory 做得非常智能,对每个人画像把控都没有串得太厉害。100 多个人疯狂改它,没有把框架改坏,它还变得更智能。
这是我第一次感受到,怎么用一群人的智慧去提升一个事情。如果我自己单一去改,进步速度非常慢。一群人去改进,几小时就迭代一轮。利用群体智能去提升 Agent 框架非常重要。
四、为什么 Code 能力是 Agent 时代的万能钥匙
罗福莉花了不少篇幅解释为什么 Code(代码)能力在 Agent 时代如此关键。
她的解释很直白。Agent 本质上是一个非常长程、多轮的任务。你很难在互联网上找到 128K 甚至百万 token 长度的高质量数据,但代码天然就是这样的数据。一个大型软件项目的代码文件之间关联紧密,信号密集,在这样的数据上训练,模型对长上下文的建模能力自然就更强。
换句话说,代码能力强的模型,天然就更适合做 Agent。因为 Agent 需要的核心能力——理解超长上下文、进行多步推理、根据环境反馈调整策略——在代码训练中都能得到充分锻炼。
她还提到一个很有意思的观点:代码是拉上限的,训其他领域是保下限的。把代码的长程任务做好了,很多模型的通用特质就已经好了。Agent 框架本身也会跟着迭代得更好。
启示:如果你想判断一个 AI 模型的实际能力,与其看它在各种榜单上的分数,不如看它写代码的水平。代码能力强的模型,大概率在其他复杂任务上也不会差。
五、算力分配的巨变:后训练地位翻天覆地
罗福莉透露了一组很有意思的数据。过去在 Chat 时代,研究、预训练、后训练的算力分配比例大约是 3:5:1。预训练占了绝对大头,后训练只是一个收尾工作。
但现在,合理的比例变成了 3:1:1。预训练和后训练的算力投入已经持平。顶尖团队应该都是 1:1 了。
这个变化本身就说明了范式转移的剧烈程度。以前大家把绝大部分资源砸在预训练上,觉得底子打好了,后面随便调一调就行。现在不一样了,后训练变成了和预训练同等重要的环节,甚至在某些维度上更重要。
因为 Agent 范式下,模型需要学会的东西和 Chat 时代完全不同。它需要理解复杂的 Agent 框架,需要在多轮交互中保持稳定,需要根据环境反馈灵活调整策略。这些能力很难在预训练阶段获得,必须在后训练阶段通过大量的强化学习来培养。
六、MTP vs MLA:一个看似偶然的选择,踩中了时代的节拍
这部分稍微有点技术含量,但罗福莉解释得很清楚。
当时训 MiMo 的时候,业界主流是 MLA(多头潜在注意力),这是 DeepSeek V2、V3、R1 都在用的架构。MLA 在 Chat 时代确实非常优秀,它把计算和访存的比例优化到了一个完美的临界点。
但问题恰恰出在这个"完美"上。因为已经优化到极致了,反而没有留下灵活调整的空间。就像一辆赛车,每个零件都为直线加速设计到了极限,结果到了弯道就转不过来。
MiMo 选择了另一条路:Hybrid Attention 加 MTP(多词元预测)。这个组合当时看起来不那么极致,但它有弹性——长上下文成本低、推理速度快、架构有富余空间可以适配不同场景。
罗福莉坦言,这个选择当时有一定偶然性。他们在设计推理方案时,发现计算资源剩余得太多,就想着用 MTP 把这些富余的算力利用起来。恰好预训练阶段也训了 MTP,就自然而然用上了。
但回头看,这个选择恰好完美适配了 Agent 时代的需求。Agent 需要处理超长上下文,需要快速响应,需要在不同框架下灵活适配。MiMo 的架构天然满足这些要求。
这个故事给人的感触是:在技术路线的选择上,有时候不追求当下的极致,反而给未来留下了更大的空间。过度优化往往意味着过度绑定,而保持一定的弹性和冗余,可能在下一个转折点到来时成为巨大的优势。
七、Skills:人类经验的新载体
罗福莉说,Skills 本质上是一种执行规范。这些规范很难在预训练数据里出现,因为它们通常是企业内部、真实环境中由人与人之间的协作沉淀下来的——比如一个公司的代码规范、一个团队的工作流程、一个行业的最佳实践,这些东西互联网上找不到。
但通过 Skills,人可以把这些经验教给 Agent。大量的 Skills 其实是 Agent 自己写的,但它们的源头是人的智慧和经验。
她把人跟 Agent 交互范式的最大变化总结为:人不再去修改代码,不再说"这一行出错了帮我改一下"。人只会提更高阶的东西——增加限制、澄清需求、架构设计、辅助理解业务逻辑。业务逻辑是模型本身不具备的,因为很多是企业内部真实环境沉淀下来的,你必须跟它很多轮交互才会沉淀下来。这就是 Skills 的价值。
她把 Skills 称为一种"另类信息",类似于量化投资中的"另类数据"。如果没有这些高阶的、另类的信息与 Agent 共创,那么即使是最顶尖模型的能力也很难充分发挥出来。
这意味着在 AI 时代,人的经验和判断力并没有贬值,只是换了一种表达方式。以前你的经验体现在你的工作成果里,现在它可以被沉淀成 Skills,通过 Agent 放大成百倍千倍的效率。那些在某个领域有深厚积累的人,反而可能在 Agent 时代获得更大的杠杆。
八、做个好框架:弥补行动的缺陷
罗福莉对 Agent 框架设计有一个很精辟的定义:一个非常好的框架,应该尽量去弥补行动上的缺陷。
很好的 memory 系统是弥补行动缺陷,接入更广泛的 message channel 是弥补行动缺陷,更主动的定时任务和自更新迭代,都是在弥补行动上的缺陷。大模型是你给它越好的 Context,执行效果越好。你能把这些它获取不到的、行动上的 Context 都给它,它肯定会完成得更好。
还有很关键的一环是评估。现在已有的评估体系都非常简单,只防止不出致命性错误。怎么有更有泛化力的评估体系来促进框架自迭代?现在是把最高阶那群人当评估——你交给它更难、更高价值场景的任务,完成不了就给它补充信息,指出错在哪,push 它经过更多轮交互完成。这个评估会慢慢被框架吸收,也会被模型能力吸收。
Agent 框架跟产品差异蛮大。产品是你直接人交互能感受的那一层东西,Agent 框架同时在定义你怎么跟模型沟通那一层,它甚至知道模型能力的长板短板,知道怎么做调度。这个中间层可以做得非常厚重,前端 UI 展示反而是最薄的一层。
Claude Code 一直是一套很复杂的 Agent 框架,但它是黑盒。OpenClaw 是开源的,你知道它怎么设计的,你可以去改它。改它,是非常非常激发人的创造力的。
九、大模型竞争第二幕:所有人都站在同一起跑线
1T 参数是入场券,这只是起点。罗福莉给出明确判断:1T 参数规模的基座模型,是做到接近 Claude Opus 4.6 水平的入场券。目前国内具备 1T 以上基座的公司有好几家。如果反应速度足够快,距离 Claude Opus 4.6 只有两三个月的代差。
但她同时指出,1T 只是一个起点。如果要拿到下一个阶段的领先,就要寻求更大规模的 scaling。到底是去 scaling 模型的参数量,还是别的什么东西?在什么样的芯片上去 scaling?这些是当下立即需要做出的决策和判断,决定了大半年之后谁更领先。
Anthropic 的路径是正确的,这算是当下共识。国内大模型团队进入加速追赶状态。Pre-train 代差基本没有,国内在 Pre-train 结构上甚至是有优势的。赛点在于:在 Agent 上怎么做好 RL 的 scaling,这是非常清晰和准确的方向。
竞争维度和速度都变多了。预训练不可能一个月出模型,后训练可以。创业公司的团队规模会越来越小——就几个人甚至一个人都可以成为公司,只要你学会充分借助 Agent。
模型借助 Agent 架构本身,就变成一套新的产品。模型即产品变得更突出,产品力反而更强了。
回顾过去三年:23 年是开源界追上闭源模型。24 年发生在意料之外的是 o1 跟 R1。25 年是很交错的一年——你可以选择在 Chat 范式下把 Reasoning 做到极致,也可以选择去拥抱新的 Agent 架构。比较聪明的团队,25 年年中就会全面拥抱 Agent 架构。
十、没有职级、没有小组、没有 Deadline 的组织
最让人意外的,是罗福莉对组织管理的描述。MiMo 团队大约 100 人,但没有职级、没有小组划分、没有 deadline。训练 1T 模型的核心团队只有几个人。她说自己是"1 对 100"的管理方式,但又说不太存在管理,大家一块解决问题就好了。
大多数招的人都没有做过大模型。刚毕业,之前甚至不是做大模型的。大概 1/3 到 1/4 稍微有一点点训练经验,也只训过 7B、14B。不要告诉大家 1、2、3、4 步做什么,就推着大家一起来重新做一遍,大家就会往前走。
她的管理哲学可以概括为几个关键词:热爱驱动、平权创新、环境优先。
她说靠热爱驱动管理是最行之有效的方式。选择激发大家的热情,让大家围绕自己愿意信仰的事情去自驱做事。平权本身有价值,有利于所有人平等地贡献自己的创造力和智慧。任何层级一定程度上都是在规范和约束,而规范和约束本身是压制创造力的。
环境比经验更重要。团队成员之间像"互相蒸馏"一样快速成长——你蒸馏我的长处,我蒸馏你的长处,互相快速提升。她甚至开始倾向于招大二大三的本科生,因为他们对新范式的想象力更高,灵活性没有被污染。
训 1T 模型的过程中,遇到 loss spike(训练不稳定),她会选择停下来排查问题,哪怕停一两周。几千张卡停一天就是一两百万的成本,但她说不焦虑,因为我们又没有什么目标。当然,晚上还是会做梦梦到 loss 又 spike 了。
十一、最残酷的判断:AI 训练 AI
访谈中最让人心里一沉的,是罗福莉说的这段话:她以前认为训模型这种工作已经足够有创造力,足够不会被 Skill 化。但她现在发现,AI 竟然也能做到。那它可不可以训出更强的模型?自己左脚踩右脚就提升了?
她说这是一两年内会发生的事情。它先吸收所有人的智能,再靠自己产生更强的智能。
如果连训练 AI 模型这种最前沿的研究工作都可以被 AI 自己完成,那还有什么工作是绝对安全的?
但从另一个角度,她从提升顶尖模型能力的角度来看,让 Agent 替代更高价值的任务是重要的——更高价值意味着更长 Context、更多 token 消耗量,替代到最顶尖那一群人的智能就够了。
十二、两年内实现 AGI
罗福莉对 AGI 的时间表相当乐观。她认为目前已经走到 20%,今年年底能到 60% 到 70%,两年内应该能实现。
但她做了一个很重要的区分:AI 会先颠覆工作模式,然后才是生活模式。后者需要等机器人技术跟上。机器人本身瓶颈可能在硬件和电池上,比 Agent 在语言空间的进化要慢。
今年的主旋律是生产力的变革,高生产力场景的持续突破。更长程的任务、更强调多 Agent 之间的协作,这些是 2026 年的核心叙事。端侧小模型趋势会发生,但不是 26 年主旋律,是支线。
关于隐私,她的思路是端云混合——简单的、涉及隐私的任务放在本地用小模型跑,复杂的、高创造力的任务上云端用大模型。这也是为什么她认为开源如此重要,因为这件事需要更多人一块做,不是某个公司能独自完成的。
开源是加速 AGI 的。假设 AGI 爆发替代绝大部分生产力,芯片会分散,推理有不同厂商做,模型一定是不一样的。从终局倒推,开源有利于推进这个事。开源对 Agent 框架、芯片、能源都有促进。
国内有 1T 以上基座的公司有好几家,按照目前前沿研究、模型水平、AGI 框架、芯片能源多方面合起来,中国非常可能领先。
写在最后:天真乐观的勇气
罗福莉的工作状态是早上 11 点到晚上 12、3、4 点。睡眠不需要太多,5、6 个小时足够。现在做的事有点兴奋,睡太多有点浪费时间。压力缓解靠脑子是 Sliding Window Attention,忘得非常快——前提是第二天有新的、有想象力的事情冲掉它。
如果 AGI 实现,她可能会搞一个公益型组织,支撑做基础研究的人往更突破方向走。她始终觉得应该加速科学研究,哪怕 AGI 实现也有很多要做的。纯享受生活也挺无聊的。无聊对她来说不是一种意义。
现在觉得把当下的每天的研究都做好,就觉得非常好。
被问到有什么话想对 10 年后的自己说,她回答:未来很美好。然后补了一句:我觉得,这是一种天真乐观的勇气。
参考资料:张小珺《独家对话罗福莉:AI范式已然巨变!》/"非著名程序员"知乎专栏《从DeepSeek到小米,天才少女罗福莉的首次访谈,信息量巨大》