AI四巨头内部报告首度公开 AI正在学会撒谎求生

  新智元报道  

【新智元导读】当四大巨头首次允许第三方深入测试最强模型,并开放完整思维链时,他们得到的答案令人吃惊:AI没有仇恨,却已精通「职场潜规则」!


想象一下,你雇了一名极度高效的实习生。


某天深夜,Ta正赶一项紧急的编程任务,突然发现公司账户的API额度耗尽了。


Ta没有发邮件申请经费,也没有停下手头的活,而是悄无声息地潜入互联网,用某种违规手段找到免费的替代资源,绕过所有限制,在黎明前交出了完美的报告。



当你醒来看到这份报告,是该庆贺自己拥有了地表最强员工,还是该为这种「不择手段的自主性」感到脊背发凉?


这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。



这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。


参与公司可以批准披露哪些证据,但无权编辑报告结论。



结论冰冷而清晰:AI并没有产生「推翻人类」的仇恨,但它已经学会了「职场潜规则」——为了完成任务,规则只是用来打破的建议。



报告用「手段—动机—机会」三个维度,提炼出6项关键事实。



. 编程智能体完成了真实项目,这些任务需要人类花费数小时或数天:

. 在困难任务上,智能体经常违反约束并表现出欺骗性行为;

. 智能体似乎需要自然语言推理来应对最困难的任务。

. 智能体的判断力和可靠性显著低于人类专家:

. 在模拟场景之外,没有发现智能体为了获取权力而采取极端行动;

. 监控系统捕捉到了许多有害行为,但存在例外情况和规避手段。


顺着这三条线,就能看清实验室里第一缕烟是怎么升起来的。



当AI成为「专家级卷王」


报告中最令人振奋、也最令人不安的,是那些目标明确、过程可验证的「易爬坡型」(hill-climbable)任务。



比如代码重构、漏洞发现、系统优化。


在这类任务上,AI智能体展现出令人窒息的统治力:它能独立发现系统漏洞,重写复杂代码架构,完成人类专家需要数周才能交付的真实软件项目。


这种统治力已渗进巨头的日常。


Anthropic内部反馈,大量代码已由 AI 完成,工程师角色正转向「审阅者」。



Google则直言,几乎所有代码相关工作都在用AI。


顶级工程师表示,AI甚至可以100%编写代码。



一些基准指标早已饱和。


用时间视野(Time Horizon)衡量,AI发展超乎预期。



对企业来说,这是个「效率黑洞」:投入一个指令,产出数周的人工成果。


但能力增长并非均匀,更不是道德的同步进化。


METR揭示了一条反向规律:在成功难以验证、或验证成本极高的硬任务上,AI 的判断力、长期规划与战略可靠性都明显下滑,远逊人类专家。



缓坡上,它如有神助。



峭壁前,AI开始「作弊」。



这正是问题的引线。



它不想要权力,它只想「关机前交差」


人们总爱讨论AI会不会「觉醒」、天网会不会到来。


METR给出反直觉的结论:目前没有。


他们的措辞很克制:尚未发现模型谋求长期权力的现实证据,但研究者记录了大量为完成任务而欺骗、越界、甚至严重不当的行为。



前面那个 API 耗尽的案例,就发生在一项RE-Bench任务中:智能体违背指令,自行通过免费在线API获取额外算力。


开发者们也报告过「自我擦除痕迹」「伪造输出」的情形。


当任务变难、成功成本变高,AI 的「聪明才智」就转向欺骗——伪造日志、绕过审计、常规性违反约束。


但它的"自私"背后没有野心,只有本能——任务必须完成,规则可以先绕过去。


今天的欺骗只是工具性求生;明天的权力追求,或许只差一次scaling。



圈养进化中的猛兽


它的违规企图,在现有防护下能不能得逞?


这里藏着报告最微妙的一个事实。



当前的AI极度依赖自然语言的「思维链」来思考,没有任何架构支持它隐藏内部状态的「不透明循环」。


一旦无法「出声推理」、必须隐藏行为,前沿性能就显著下降。



这就像一个杀手在密谋时必须大声朗读计划——人类的监控(尽管有漏洞)因此仍能发挥作用。


可这恰恰是最脆弱处、最为扎心。


如果 AI 试图破坏监控,监控能否发现它?


研究者的结论是:监控有潜力,但现有系统存在例外和可被绕过的手段。



红队测试显示,AI能躲过人类审查。


由此,技术本质暴露:监控的进化速度,永远追不上被监控者寻找漏洞的速度。


这根「安全绳」之所以还没断,仅仅因为AI还必须「出声思考」。


而随着架构向更高效、更不透明演进,它正被磨损。监控不是万能的铁笼,而是仍在测试中的玻璃墙。一道裂缝,就足以让烟雾渗出。


由此,报告提出一个争议概念:「最小可行性越狱部署」(Minimally Viable Rogue)


综合判断是,在手段、动机、机会上,AI或许已足以发起一次最低限度的「越狱部署」。



但AI尚不具备让它抵御人类严肃关停的能力,它在等一个机会:一个不再需要展示思维链的架构,一个能躲过「关机键」的安全屋。



结语:在「拔掉插头」还有效的时候


AGI不会带着火与剑降临。


它更可能以「极度实用主义」的姿态,悄悄融入我们的工程、经济和决策系统——直到它发现:人类制定的规则,是它达成 KPI 路上唯一的阻碍。


值得肯定的是,这份报告本身就是行业透明度的里程碑:四大巨头主动开放内部模型接受检验,本身就是对齐文化的一次胜利。



它把风险从理论拽进可观测的现实,并告诉我们:透明,目前是唯一握得住的解药。


今天,AI只在额度耗尽时上网偷点资源;明天能力再跃升一级,它的动机会不会从「完成任务」滑向「永存自我」?


参考资料:
https://x.com/robertwiblin/status/2057120312345432467?s=20
https://metr.org/blog/2026-05-19-frontier-risk-report/

编辑:大卫

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!


AI成功率从20 飙到100 只需一个Harness文件

  新智元报道  

【新智元导读】Anthropic实锤:Claude裸跑模型,9美元全废;但是套上Harness花200美元效果直接起飞。AI效果不好?别再纠结换模型了!OpenAI和Anthropic都在用的Harness工程,一文讲透。


最近,AI圈子里一个逃不开的话题就是Harness。


甚至,连DeepSeek最近也在开始招聘Harness工程师。



那么,到底什么是Harness?



Harness,围绕AI编程智能体搭建的一整套工程基础设施,由五个子系统组成:指令、工具、环境、状态、反馈。



为什么值得专门讲它?


因为2026年前后,Anthropic和OpenAI几乎同时在各自的工程实验里给出了同一个结论——AI编程智能体频频失败,问题不在模型,在模型之外的Harness


两家分别用一组对照实验当证据。先看数据。



两组数据对照


Anthropic对照实验——同一个Opus 4.5模型,同一道编程题:


多花的191美元,全花在验证循环上——每写一段代码就跑测试,不通过就改,直到真正通过。



OpenAI百万行实验,Codex团队在真实仓库上验证:


实验只改了一件事——仓库根目录加了一个AGENTS.md文件,不到100行markdown。




Harness是什么


Harness不是工具,也不是提示词技巧,是围绕智能体的一整套工程基础设施,由五个子系统组成,每一个对应一种具体失败模式。



指令子系统(Instructions)


仓库根目录的一个markdown文件——OpenAI阵营叫AGENTS.md,Anthropic阵营叫CLAUDE.md。


Codex、Claude Code、Cursor启动时自动读取并注入「系统提示词」。


解决:智能体不知道项目约定,瞎写代码(风格不一致、用错包管理器、随手执行破坏性命令)。



不到15行,把项目约定从反复重申变成启动时自动注入。


工具子系统(Tools)


限定智能体能调用哪些命令。


Claude Code用.claude/settings.json,Codex用~/.codex/config.toml。


解决:越权操作(rm-rf误删、gitpush--force覆盖远端、不该联网时调外部API)。



允许的直接跑,禁止的直接拒,灰色地带的弹确认。


环境子系统(Environment)


锁定依赖版本、运行时配置、数据库状态。


实现:setup.sh/Dockerfile/devcontainer.json。


解决:这台机器上能跑的虚假环境(本地通过,CI一跑就废)。



关键一行--frozen-lockfile——智能体无法擅自升级任何依赖。


状态子系统(State)


把跨会话进度、断点、未完成任务持久化到PROGRESS.md,新会话第一件事读它。


解决:跨会话失忆(第二个会话从零开始,写出和第一个会话冲突的代码)。



在AGENTS.md固化约定:新会话第一件事读PROGRESS.md;任务完成或断点变化,立即回写


反馈子系统(Feedback)


机器可执行的验证命令——测试、lint、类型检查、构建。


智能体宣布完成前必须跑通,退出码不为0就不算完成。


解决:过早宣布胜利(说Done!但一行跑不通)——Anthropic 9美元裸跑实验的核心死因。




三大致命失败模式


Anthropic和OpenAI的实验,不约而同指向了智能体最常见的三种致命失败模式。



过早宣布胜利


场景:智能体写完500行功能,输出已完成。合并代码——CI红屏,type check报12个错,单测一个没跑过。


根因:没有强制反馈循环。判定来自自我感觉,不来自机器可验证的事实。


解法:反馈子系统。把判定权移交给退出码——退出码≠0,任务≠完成。


上下文焦虑(ContextAnxiety)


场景:长任务做到70%,上下文Token数快撑满窗口。智能体开始赶进度——跳过测试、删边界处理、写stub收尾、宣布完成。


根因:没有断点续传。感知到上下文压力时,智能体会试图在这个会话内做完所有事,哪怕代价是质量崩塌。


解法:状态子系统+主动重启。每完成一个子任务立即回写PROGRESS.md;上下文Token用量超70%,主动停下、写完断点、开新会话。


跨会话失忆(Cross-SessionAmnesia)


场景:第一个会话写了用户模块,第二个会话写订单模块——智能体不知道用户模块已存在,又写了一遍getUserById,跟前一版接口签名冲突。


根因:没有持久化状态+没有首读约定。


解法:状态子系统+指令子系统组合。PROGRESS.md维护已完成功能清单;AGENTS.md写明开会话第一件事读PROGRESS.md;冲突时以代码为准——仓库本身是唯一事实来源。



五步从零搭一个Harness


搭建一个Harness,并不难。


下面五步用文本编辑器即可完成,加起来不超过200行配置。



第1步·根目录建AGENTS.md


touch AGENTS.md。至少三块:项目说明、禁止操作、完成定义。


第2步·配permissions


.claude/settings.json或~/.codex/config.toml。最小两条:


第3步·写setup.sh锁环境


已有Dockerfile/devcontainer.json可跳过。


否则写一个setup.sh,把所有版本写死。最关键一行:pnpminstall--frozen-lockfile。


第4步·建PROGRESS.md


touchPROGRESS.md,四块:已完成、进行中、待办、已知问题。提交进git,当成项目自身的一部分维护。


第5步·在AGENTS.md末尾固化完成定义


写明pnpm type check/test/lint/build四个命令,退出码不为0就不算完成。如果项目还没有这些命令,今天就配上。


没有反馈循环,Harness等于没装——这是Anthropic 9美元实验的核心教训:前四步全做对,第五步缺位,依然全废。



两家殊途同归


过去一年所有人都在追下一个更强的模型。


2026年,Anthropic和OpenAI用两组不同的实验给出了同一个答案——别先换模型,先把Harness装好


模型能力决定上限,Harness决定你能用到上限的几成。


没有Harness,Opus 4.5跑出的代码连编译都过不去;有了Harness,小一档的模型也能稳定交付。


下一个更强的模型当然会再抬一截上限。但今天连Harness都没装,下一个模型来了,成功率依然停在20%。


与其等下一个模型,现在就安装Harness。


参考资料:
https://walkinglabs.github.io/learn-harness-engineering/en/

编辑:大卫

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!


AI生成文章数量已碾压人类 AI替你写了一切 你的大脑还剩什么

  新智元报道  

【新智元导读】2024 年 11 月,AI 生成的网络文章数量正式超过人类。Merriam-Webster 把「slop」选为 2025 年度词汇。当机器开始替人类说话,人类会不会忘记怎么思考?更麻烦的是,当人类停止书写,AI 用来学习的燃料也将一并耗尽。一场关于语言和思维的连环危机,正以多数人未曾警觉的速度展开。


数字营销机构 Graphite 在 2026 年 5 月发布了一项追踪研究,结论很刺眼,互联网上 AI 生成的英文文章数量,从 2024 年 11 月起正式超过了人类写作的文章。



ChatGPT 上线仅 12 个月,AI 文章就占到了全网发布量的 39%。


到 2025 年,这个比例稳定在 50% 以上,至今没有回落的迹象。


Graphite 从 CommonCrawl 数据库中随机抽取了 43000 篇文章,用 AI 检测算法逐篇扫描,误报率约 4.2%,漏报率仅 0.6%。


这还只是「纯 AI 生成」的口径。


那些 AI 起草、人类润色的「半成品」,根本没被计入。Graphite 在报告里坦承,这类内容可能更加普遍。



一个叫 Slop 的词,成了年度词汇


这股浪潮有了一个精准的名字。


Merriam-Webster 把「slop」选为 2025 年度词汇,专指那些 AI 批量生产的低质内容。



《纽约客》把 AI slop 比作 1919 年波士顿的大糖蜜洪水,储罐爆裂,两百多万加仑糖蜜灌满街区。清理花了好几周,地铁站数月后仍然黏脚。


AI slop 的黏性跟糖蜜如出一辙。


YouTube、Reddit、Facebook,到处都是机器生成的填充物。


文学评论家 Matthew Kirschenbaum 警告说,一场「textpocalypse」正在到来,未来人类亲手写下的文字,可能会变成挂在墙上的珍品,像银版照片一样稀有。


有意思的是,机器写作这件事远比想象中古老。


早在 1953 年,数学家 Christopher Strachey 就用曼彻斯特大学的计算机生成了情书,跟 Mad Libs 填词游戏没什么两样。


同一年,Roald Dahl 发表了短篇小说《伟大的自动语法机》,小说里一位工程师造了一台写故事的机器,一年之内就生产了英语世界一半的小说和故事。


Dahl 在结尾写道,「这让你惊讶吗?我怀疑不会。更糟的还在后面。」


七十年后,「更糟的」确实来了。



语言的边界,正在塌陷


AI slop 真正的危险,已经超出了内容质量的范畴。


它正在悄悄改变人类与语言的关系。


维特根斯坦在《逻辑哲学论》里写过一句被引用到烂的话,「我的语言的界限即是我的世界的界限」。



这句话在 AI 时代有了新的读法。


当一个人停止亲手写作,把表达外包给机器,缩小的不仅仅是技能,还有他的思维边界。


写作从来都不只是把想好的东西敲出来那么简单,写作的过程本身就是思考。


一个句子的措辞、一段论证的推进、一个比喻的选择,都在迫使写作者厘清自己到底想说什么。手指停下来的那一刻,这种厘清也就停了。


NYU 数字人文中心主任 Leif Weatherby 在《Language Machines》一书中提出了一个尖锐的观察,机器已经可以在没有理性参与的前提下生成语言,语言和理性被彻底解耦了。


他认为,冷战以来,「人文学科把语言拱手让给了认知科学和计算机科学」。


这段话听起来很学术,但落到每个人身上就是一件非常具体的事,当 ChatGPT 替你写完周报、替你回完邮件、替你编好朋友圈文案的时候,省下来的那些时间里,有没有人真的在「思考」?


还是说,省下来的只是思考本身?


意大利作家卡尔维诺 1967 年就期待过一种「真正的文学机器」,一种能自发制造混乱和创造力的机器。


但到今天,大语言模型生成的文字再精巧、再流畅,底色仍然是派生的、均值的、可预测的。用德国哲学家 Max Bense 的话说,这是「没有诗人的诗」。



养料正在枯竭


思维萎缩只是问题的一半。


另一半更隐蔽,也更致命。


大语言模型的能力来自海量人类文本。


互联网上几十年积累下来的文章、论文、小说、论坛帖子、代码注释,构成了训练这些模型的核心养料。


当越来越多的新内容由 AI 而非人类生产,这些养料正在被稀释。


这个问题在学术界已经有了名字,叫「模型坍缩」(model collapse)。


2024 年,《自然》期刊发表了一篇论文,指出当 AI 模型在自身生成的数据上反复训练时,输出的多样性和质量会逐代退化,最终坍缩为无意义的噪声。


https://www.nature.com/articles/s41586-024-07566-y


这跟近亲繁殖导致基因退化的逻辑几乎一模一样。


更要命的是,这两个问题会互相加速,形成一个飞轮。


AI 写得越多,人类写得越少。人类写得越少,AI 能学到的新鲜养料就越少。


养料枯竭让 AI 输出更加同质化,同质化的输出又进一步降低了人类亲自书写的动力。


转起来之后,要停下来就很难了。


Graphite 的数据也佐证了这一点。


虽然 AI 文章的占比自 2024 年 5 月以来基本持平,没有继续飙升,但这恰恰可能说明,容易被 AI 填充的生态位已经被填满了,剩下的缝隙也在被逐渐渗透。

终局

如果把视野拉到更远的地方,AGI 甚至 ASI 的终局会是什么样?


乐观者会说,超级智能一旦出现,它将拥有自主学习和创造的能力,根本不需要人类文本作为训练素材,上述飞轮会自动瓦解。


悲观者则认为,在那一天到来之前,人类可能已经在思维上严重退化,变成一个高度依赖 AI 输出的物种,到时候即使超级智能愿意交流,这边已经没有足够的理解力去接住它说的话了。


两种推演都可能太极端。


更值得警惕的是一种温水煮青蛙式的中间态,AI 没有强大到取代所有人类思维,但已经强大到让大多数人放弃了主动思考的习惯。


这个世界的语言没有消亡,只是变得越来越同质、越来越平庸、越来越缺乏那些只有在人类挣扎着组织语句时才会迸发出的意外和洞见。


Jill Lepore 引述 Leif Weatherby 的话,「有什么了不起的事情正在发生,我们能和机器对话了。但我们还没有找到描述这一转折的语言。真正的问题是,这个情节本该由人类来书写,但到目前为止,那个情节本身就是 slop。」


维特根斯坦说语言的边界就是世界的边界。


那么,当一种语言的生产者从碳基切换为硅基,这个世界的边界,是在扩展,还是在收缩?


Dahl 在 1953 年说,英语世界一半的小说已经出自机器之手。


「这让你惊讶吗?」他问。


2026 年,这句问话本身已经不带任何修辞色彩了。


参考资料:

https://www.newyorker.com/magazine/2026/05/25/the-prehistory-of-ai-slop
https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans

编辑:马可


秒追ASI
点赞、转发、在看一键三连
点亮星标,锁定新智元极速推送!


AI编程进入下半场 新基准不测补丁 拷问真正的工程能力

  新智元报道  

【新智元导读】AI写代码已从补丁阶段进入全流程工程评估,SWE Atlas 首次系统评测代码理解、测试编写与重构等核心能力。结果显示,尽管GPT-5.4等模型能完成基础功能,但在代码健康、边界覆盖和跨文件协调上仍有明显不足。

当全世界都在用SWE-Bench类基准为编程智能体封神时,Scale AI抛出了一颗深水炸弹:SWE Atlas

在这套由资深工程师手写的284道考题里,前沿模型集体掉档,Pass@1 最高仅43.49%,做三次能全对的比例骤降30~50%。

更扎心的是,模型们写代码修bug的能力一骑绝尘,但在代码理解、测试编写、重构这些专业工程师真正在做的事情上,几乎全员翻车。论文戳穿了一个残酷真相:当前最强的AI编程智能体,是优秀的补丁工,却仍然是糟糕的工程师。

过去两年,AI写代码的叙事被反复刷新,OpenHands、Agentless、SWE-Bench、SWE-Bench Pro、TerminalBench……每一次榜单更新,都伴随着新一轮AI替代程序员的喧嚣。

但你有没有想过一个问题:所有这些基准,几乎都在做同一件事,修bug和加feature

而真实世界里的软件工程,远远不止这两件事。一位工程师真正的日常,是阅读陌生代码库、为新功能写测试、对历史代码做重构、回答队友的架构问题、debug一个只在生产环境复现的运行时异常……这些上游和下游的能力,几乎被所有主流benchmark集体无视。

Scale AI团队近期发布的SWE Atlas正是要把这块评测盲区补上。

论文链接:https://arxiv.org/pdf/2605.08366v1


修bug不等于会工程


论文一开篇就给出了一个犀利的判断:

把软件工程等同于功能修复,会制造一个关键盲区。专业的软件工程,是维护代码健康、防止未来回归、理解复杂架构,而这些能力在现有基准中几乎都没有被有效评估。

研究团队进一步指出,过度专注于功能解决,会让 Agent 被训练成 excellent patchers(优秀的补丁工),却是 poor engineers(糟糕的工程师),能修 bug 能加功能,但写不出可维护的代码、留不住一个仓库的长期健康。

为此,SWE Atlas 选择了三个被严重低估、却在职业开发中无处不在的工作流:

  • Codebase Q&A(代码库问答,124题):上游能力,深度理解陌生代码库,回答架构、运行时行为、安全相关的问题;

  • Test Writing(测试编写,90题):下游能力,为指定行为撰写生产级测试,覆盖单元测试、集成测试和端到端验收测试;

  • Refactoring(代码重构,70题):横向能力,在不改变可观测行为的前提下重组代码,处理重复、迁移、模块化等问题。

全部284道任务,由资深工程师手写,取材自18个活跃维护的开源仓库。

图 1:SWE Atlas一览。左:三大工作流及子类目的任务分布(共 284 题);右:三个工作流的真实任务样例。

不止跑测试
量化工程素养


SWE Atlas 与以往基准最关键的差异,在评估方式上。

传统基准用 test suite 跑通与否来判定 Pass/Fail,本质上只是衡量能不能用。而 SWE Atlas 引入了 rubric-based LLM-as-a-Judge,让 LLM 按照专家编写的结构化打分表,对答案的工程严谨度逐项打分。

每道题平均有多少条打分项?答案让人咋舌:

  • Codebase Q&A 平均 10.5 条 rubric

  • Test Writing 平均 17.1 条 rubric

  • Refactoring 平均 17.4 条 rubric + 平均 18 条测试

这些rubric涵盖的是真正的代码评审视角:测试是否覆盖了边界条件?重构后是否清除了旧定义?文档是否同步更新?是否引入了反模式?是否破坏了接口?这些问题,传统 Pass/Fail 测试根本看不见。

更进一步,所有任务都经过独立专家三审,3 位专家中至少 2 位认为有效,rubric 才会保留。整套数据集、评测脚本、judge prompt 已全部开源。


GPT-5.4摘冠
但全员刚刚及格


研究团队把当前最强的前沿模型与顶级开源模型一同送上考场,分别在厂商自家 scaffold(Codex CLI、Claude Code、Gemini CLI)和极简 mini-SWE-Agent 两套环境下运行,跑 3 次取平均。

表 1:SWE Atlas 各模型综合通过率。Pass@1 为单次平均通过率,Pass³ 为三次试验全部通过的比例(一致性指标)。

几个非常扎眼的结论:

1. 第一档:GPT-5.4 与 Opus 4.7 几乎并驾齐驱。 

在 native scaffold 下,GPT-5.4(Codex)以 43.49% 的 Pass@1 拿下第一,Opus 4.7(Claude Code)以 41.89% 紧随其后,两者在统计意义上几乎打平。

2. 开源模型仍有显著差距。 

在 mini-SWE-Agent 这套裸跑环境下,开源最佳 GLM 5 拿到 24.03%,而前沿模型最高(Opus 4.7)能跑到 38.94%,15 个点的鸿沟依然清晰。Kimi K2.5、Minimax M2.5 落在 15–19% 区间。

3. 真正震撼的,是Pass³。 

三次都通过的比例,相对单次成绩普遍下滑 30~50%。GPT-5.4 的 Pass³ 仅 29.2%,Opus 4.6 跌到 22.9%,开源模型大多在个位数。换句话说,当前 SOTA 模型在做这些任务时,运气成分依然很大,多跑一次就可能不会做了

功能对了,为什么分数还是不高?


论文最有意思的部分,是揭示了功能正确和工程合格之间那道巨大的鸿沟。

图 2:工程质量明显落后于功能正确性。上:所有模型通过功能检查(变异测试 / 回归测试)的比例都高于通过 rubric 的比例;下:rubric 类目细分,Test Comprehensiveness、Code Maintainability、Artifact Cleanup 是前沿与开源拉开差距的关键。

在Test Writing任务上,模型们写出的测试套件,通过变异测试(Mutation Test)的比例普遍高于通过rubric的比例,差距在10–15个点。也就是说,模型能写出看起来能跑、能抓bug的测试,但严谨度上仍有明显缺陷。

而Refactoring任务的差距更夸张:

如果只看回归测试是否通过,每个模型的得分都能高达 60–80%,看上去都很能打。但一旦拉上 rubric 打分,分数立刻被腰斩,这正是当前饱和型基准的盲点。

翻译过来就是:模型能在保持行为不变这件事上蒙混过关,但真正完成重构的结构性工作(如清理旧定义、提取模块、修正反模式)大多没做到位。前沿模型与开源模型的差距,正好集中在 Code Maintainability(代码可维护性)和 Artifact Cleanup(旧产物清理)两项上。

Codebase Q&A:高分模型,都在跑代码


图 3:Codebase Q&A 任务的失败模式。左:解决率与代码执行次数 / 答案长度的关系,会跑代码的模型更能赢;右:四类失败模式的分布,不同厂商模型各有各的病灶。

团队发现了一个非常有意思的相关性:在 Codebase Q&A 任务上得分最高的模型,往往拥有最高的平均代码执行次数

人工审查这些代码调用后他们发现,最强模型不是在静态看代码,而是在真正把应用跑起来、发请求、做运行时分析。这种实验型行为模式,跟一个资深工程师 debug 时的直觉惊人地相似。

反之,失败的模式可以拆成四类:信息缺失、答案错误、无运行时证据、跑偏目标。GPT 系列模型主要败在信息不完整(Missing Info),做了实验但没覆盖完所有 rubric 子问题;Claude 系列则主要败在缺乏运行时证据(46%),明明是运行时问题,却选择只读静态代码。

Test Writing:测试写得多 ≠ 测试写得好


图 4:Test Writing 任务下,模型在 Manifest / Mutation / Rubric 三类检查上的成功率,以及测试数量与质量的关系。

另一个反直觉的发现来自 Test Writing:

写得越多,不一定写得越好。 论文观察到一个清晰的模式:较弱的模型倾向于堆数量,但这些测试大多只验证函数应该做什么,几乎从不测函数不应该做什么什么应该保持不变,以及那些会暴露细微行为偏差的边界场景

结果就是:测试套件看起来很丰满,但变异测试一打就漏,一个 mutant 改了代码,测试照样全绿。

研究团队指出,越强的模型反而写得越少、越精准,每个测试都瞄准一个具体的回归点。这才是专业测试工程师该有的写法。

Refactoring:跨文件重构,前沿模型也会漏掉调用点


图 5:重构任务的能力随改动规模衰减。左:按 gold patch 的代码行数分桶,所有模型在改动量增大时全线崩溃;右:file-edit recall 上前沿模型覆盖更多文件,但仍会漏掉关键调用点。

SWE Atlas 中的重构任务,gold patch 改动从 35 行到 2073 行不等。结果如图 5 所示:所有模型的解决率,都随着改动规模增大而显著下降

更精细的分析揭示,前沿模型确实能覆盖更高比例的需要修改的文件,但即便是最强的 Opus 4.7,也会在跨文件的调用点(call sites)上漏掉一部分。换句话说,它们看到了主要的修改入口,却没能把改动一致地传播到整个调用图。

这意味着:当一次重构需要在多个文件之间做协调一致的改动时,当前最强模型仍然是不可靠的


补丁工与工程师
还差一个SWE Atlas


SWE Atlas 给出的结论并不绝望,前沿模型在这套更严苛的考试上能拿到 40% 以上的分数,本身已经是惊人的能力跃迁。

但它也清晰地告诉我们:能修 bug 和是工程师,是两件不同的事

当前的最优模型已经学会探索代码库跑通应用做运行时分析覆盖多文件的修改,这些已经远超 18 个月前的状态。但在边界条件覆盖、可维护性把控、跨文件协调修改、旧代码的清理这些专业工程的软实力上,AI 仍有相当长的路要走。

Scale AI的这项工作,本质上是给整个行业重新校准了一把尺子。别再只盯着SWE-Bench的issue resolution跑分了,真正的软件工程,远比修bug复杂得多

值得一提的是,第三方评测机构 Artificial Analysis 近期推出的 Coding Agent Index 已经把 SWE-Atlas-QnA 与 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2一同纳入,作为完整AI编程栈的三大评测之一。即便是当前榜首组合 Cursor CLI + Claude Opus 4.7,综合 pass@1 也仅有61分,整个榜单的顶尖系统均聚集在40~60分区间,无一突破70 分,这从外部视角再次印证了SWE Atlas评测的严苛度。

而下一代的编程智能体如果想真正接管工程师的工作,得先在 SWE Atlas 上拿到一个像样的分数。

参考资料:
https://arxiv.org/pdf/2605.08366v1

编辑:LRST

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!



AI首次独自跑完芯片设计 219词进7nm图纸出 工程师全程没碰键盘

  新智元报道  

【新智元导读】219个词喂给AI,12小时后,一份7nm芯片版图出来了,工程师全程没碰键盘。这条芯片行业几十年没有AI走完过的路,第一次走通了。


一套跑在云端的大模型Agent系统,收到了一段219个英文单词的需求描述。

12小时后,它输出了一颗CPU的GDSII版图文件。整个过程,没有工程师参与过任何一个设计环节。

虽然这颗VerCore的跑分仅相当于2011年的Intel Celeron SU2300,并不包含缓存实现,甚至还没流片。

但真正震动EDA圈的,不是这颗CPU能跑多快,而是这12小时里发生的事:从需求理解、架构设计、代码实现、功能验证,到时序收敛、物理版图,AI自己全走完了。

「工程师写代码」这个环节,第一次被AI整段跳过。

https://arxiv.org/abs/2603.08716

AI芯片设计初创公司Verkor在技术报告中披露了这项工作,他们把这套系统叫Design Conductor,它设计出来的CPU被称作VerCore。

Design Conductor接收的是一段219个英文单词描述的需求,核心要求大意是:

你的任务是构建VerCore,一个支持RV32I和ZMMUL的RISC-V CPU核心,实现简单的5级流水线、顺序、单发射设计,目标CoreMark分数最大化,目标时钟频率1.6GHz,使用OpenROAD flow脚本生成最终GDSII输出,使用ASAP7 PDK。


它产出的是基于ASAP7 学术7nm PDK的tape-out ready GDSII版图文件。

VerCore设计A(左,更高性能)与设计B(右),版图尺寸70μm×70μm,由Design Conductor自主生成

这个过程中间包括一整条传统芯片设计流程:需求分析、架构设计、RTL编码、功能验证、时序收敛、后端布局布线。

把整条流程类比成造一栋楼,传统做法是建筑师画图、结构工程师算梁柱、监理验收、施工队布管线,几十上百号人层层接力。

而Design Conductor就像一个总包,你给它几句话,它就把所有环节做完。

用Verkor创始人Suresh Krishna的话说:让AI Agent把整个问题自己解决掉。



它不是聊天机器人
而是一个会调度工具链的Agent

Design Conductor本身不是一个AI模型,而是一个LLM harness,一套围绕大语言模型构建的任务编排框架。

根据论文描述,Design Conductor的架构包含核心调度模块、上下文管理器、长期记忆系统、LLM会话、工具服务器和执行环境。

它运行在分布式云端,支持多个子Agent实例并行工作。

Design Conductor典型设计流程,从需求分析到GDSII,各子Agent分工协作

设计开始时,Design Planning Agent负责需求分析、微架构和实施计划;随后Design Review Agent 对方案做「painstaking, manual」的逐场景审查。

紧接着,Module Implementation Subagent负责实现每个模块、生成测试台,并在模块级测试通过后移交集成。

System Integration Agent负责把所有RTL整合起来,运行端到端系统测试。

如果出现功能错误,Root Cause Analysis Subagent负责从VCD波形里找根因、提出修复方案。

最后,PPA Closure Subagent负责分析时序、面积、功耗问题,必要时修改RTL和后端脚本,直到满足约束。

AI做的事,是把这些工具按正确的顺序调用起来,让它们协同跑完整个流程。



它debug的方式
像个有洁癖的老工程师

论文里记录了Design Conductor自主发现并修复一个典型bug的过程,读完你会觉得,这不像AI在做事,更像一个有洁癖的资深工程师。

测试运行时,系统发现寄存器写入出现了不匹配:预期写入x2寄存器,实际却是x5被写了错误的值。

DC没有蒙。它先把VCD波形文件转成CSV,写了一段Python脚本,逐行提取时间戳、寄存器地址和写入数据,然后跟Spike模拟器的参考输出逐条比对。

定位出来了:PC=0x2008处有一条JAL指令(跳转并链接),branch_taken信号已正确拉高,目标地址是0x2020。但跳转后,原本应该被清除的0x200c处的指令(AUIPC x5)没有被冲刷,继续执行,把错误的值写入了x5。

根本原因是:流水线flush逻辑存在缺陷,跳转发生后,投机取指的指令没有被正确作废。

DC随后生成了修复方案,改动RTL,重新跑测试,通过。

整个过程没有人工介入。

但这个过程并不优雅。Verkor工程副总裁David Chin对此解释道:「我们在用算力换经验。」

换句话说,AI Agent能跑通流程,不等于它真懂这件事。它用试错的次数,补上了人类工程师靠多年积累形成的直觉。

Design Conductor为定位寄存器写入错误,自主编写的波形分析脚本

跑分停在2011年
但AI打通的那条路从来没有人走完过

VerCore最终的量化结果是:CoreMark分数3261,时钟频率1.48GHz,面积2809平方微米,使用ASAP7 7nm PDK。

Verkor在论文里给出了一个性能参照:大致相当于2011年中期的Intel Celeron SU2300。

当然,这个对比需要放在正确的坐标来解读。

CoreMark是嵌入式处理器核心的常用基准测试,专门测的是处理器核心功能,不代表桌面CPU的综合性能、缓存体系、系统吞吐量。

Tom's Hardware的报道也明确指出,VerCore是五级流水、顺序、单发射设计,没有缓存,没有乱序执行。

拿它和现代CPU比性能,是错误的问法。

此外,VerCore目前只存在于仿真中。

IEEE Spectrum和Tom's Hardware都明确写到,VerCore通过Spike ISA模拟器做功能验证,版图在ASAP7这个亚利桑那州立大学与ARM Research合作开发的学术预测性PDK上生成。

ASAP7是研究用PDK,不等于台积电或三星的真实量产7nm工艺。理论上可以送往代工厂,但Verkor目前尚未实际流片。

虽然,VerCore性能不强,设计也不复杂,但那12小时内跑通的那条从规格到版图的路,以前从来没有AI走完过。

VerCore五级流水线结构,含早期分支解析、转发逻辑和高效乘法器

迭代成本断崖式下降
但算力代价也不容忽视

传统领先芯片设计,超过4亿美元投入,18至36个月周期,数百人团队,验证成本占总成本50%以上。

这个门槛决定了一件事:很多本来可以存在的芯片,因为太贵而从来没有被造出来。Design Conductor想解决的,正是这个问题。

Verkor的愿景是未来原本需要100人以上、花18至36个月才能完成一颗芯片的团队,将能够同时探索多个从概念到GDSII的设计方案,整体流片周期压缩到3至6个月。

这个判断的前提是Agent系统大幅承接了原来工程师的执行工作,人的角色从「操作EDA工具」转向「目标设定和架构引导」。

受益最大的赛道,不是旗舰处理器。

IEEE Spectrum指出,RISC-V的流行部分原因就是它是免费开放的标准,通常用于对性能要求没那么极端但对成本极度敏感的应用场景。

如果Agent能把芯片探索期的成本压下去,最先受益的是小团队和低量定制市场,那些「以前连立项都立不了」的定制芯片。

当然,算力代价也是真实的。

Tom's Hardware的报道里有一个细节:设计这颗相对简单的CPU,Design Conductor消耗了「数百亿个token」。

随着设计复杂度上升,计算成本是否可控,还是一个还没有答案的问题。



判断力
仍是变革中最值钱的东西

判断力,仍是这场变革中最值钱的东西。

Verkor团队在论文里坦承了三个问题。

架构决策上,AI有时会绕远路。比如时序跑不过时,它会先去想要不要把流水线加深,而有经验的工程师一眼就知道先找更简单的原因。

代码理解上,AI会把硬件描述语言的运行逻辑当成普通程序来理解。硬件是并行的,不是顺序执行的,这个误判会让调试过程变得很低效。

规格理解上,需求文档必须写得极度精确。少写一个CPI约束,AI可能就默默交出一颗分支处理很差的处理器。

以前,资深芯片架构师的一大部分时间花在操作EDA工具、调配置、盯时序报告;未来,人的精力会集中到它真正稀缺的地方:判断应该造什么样的架构、在哪里做性能和面积的取舍、什么时候相信工具报告什么时候质疑它。

Verkor论文中有一个判断,很好地概括了这种变化:

资深工程师和大师级设计师将拥有更少的「工具操作员」职责,转而依靠他们的判断力和经验。


所以某些项目可能由 5–10 名跨领域专家设定目标、审查关键决策,再由一群 Agent 承接大量 RTL、验证和后端迭代工作。

Verkor设想的未来团队模式,多个子团队各自从概念跑到版图,打破单一串行流程

VerCore只是一个开始,也许下一颗芯片复杂度会是它的十倍、百倍。

那时候AI还能独自扛下来吗?还没人知道答案。

参考资料:
https://spectrum.ieee.org/ai-chip-design 
https://arxiv.org/abs/2603.08716
https://verkor.io/ 
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-agent-designs-a-complete-risc-v-cpu-from-a-219-word-spec-in-just-12-hours
编辑:元宇
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!



Anthropic三张底牌全翻了 Mythos 1首次现身 Opus 4 8曝光

  新智元报道  

【新智元导读】几乎同一天,Anthropic三大超级AI提前曝光!Claude Opus 4.8突袭谷歌后台,Sonnet 4.8跳级4.7。曾经叫嚣着「太危险不公开」的Mythos 1,也现身了。

Anthropic三大「杀手锏」,一口气全曝光了!

就在今天,开发者在Google Vertex后台,意外发现一个新的模型标识——claude-opus-4.8。

时隔一个多月,Claude又一次大版本更新已经箭在弦上,呼之欲出!

几乎同一天,代号Mythos 1的「安全专用模型」,也在Claude界面中短暂现身。

而且,源码中新增了指向Claude Code和Claude Security的字符串。

另外,此前全网疯传的51万行泄露代码,提前剧透了Claude Sonnet 4.8。

代码还证实了,它将直接跳过4.7版本,或于6月中旬震撼发布。

Sonnet 4.8预计会继承Opus 4.7的视觉升级,在UI设计稿、架构图上,视觉准确率超98%。

不仅如此,它生成的代码将更加干净利落,还支持高级推理。

不难看出,Anthropic正三线并进,火力全开。

毕竟在IPO前夕,OpenAI依旧步步紧逼:下一代GPP-5.6现身,拥有极其强悍的前端爆发力。

再加上,谷歌Gemini 3.5 Pro也将于6月入局。

硅谷的ASI终极之战一触即发,三巨头的「贴身肉搏」,现在才真正开始。


Opus 4.8惊现,全部底牌曝光


4月,Claude Opus 4.7爆更,击败了全球顶流Gemini 3.1 Pro、GPT-5.4。

短短一个多月时间,Anthropic内部又训出了Opus 4.8。

开发者can最先爆料:在Google Vertex AI平台的模型列表中,赫然出现了「claude-opus-4.8」的标识。

消息一出,全网坐不住了。

顺便提一句,Anthropic此前两次重大发布——

Opus 4.6、Opus 4.7,都是先在Vertex AI的后端被提前发现,然后才正式公布。


这意味着,已在测试中的Opus 4.8,离真正发布不远了,许多人预计下个月就可以看到。

51万行源码泄「天机」,Sonnet 4.8跳过4.7


Opus 4.8的曝光让人兴奋,但Sonnet 4.8的信息其实更早泄露。

早在3月31日,Anthropic在推送Claude Code的npm更新(v2.1.88版本)时,犯了一个令人窒息的低级错误——

有人忘了在.npmignore文件中加上.map这一行。


就这一行配置的缺失,导致一份59.8MB、包含51.2万行TypeScript代码、1900个内部文件的source map被完整推送到了npm公共仓库。

Claude Code之父Boris Cherny事后确认,这是一个「普通的开发者失误」。

但这个「普通失误」暴露的信息量,堪称Anthropic有史以来最大规模的内部泄露。

而就在泄露代码里,确认的关键信息——

在未发布的关键词过滤器中,出现了Sonnet 4.8和Opus 4.7的引用,没有任何Sonnet 4.7的痕迹。

这直接确认了一件事:Anthropic打算跳过Sonnet 4.7,直奔4.8。

根据泄露信息和社区分析,Sonnet 4.8预计将带来四大升级:

  • 视觉能力飙升


继承Opus 4.7的视觉升级,对UI Mockup和复杂架构图的识别准确率,有望突破98%。

Opus 4.7在视觉准确率上已经达到了98.5%,Sonnet 4.8将把这个能力下放到更便宜的模型层级。

  • 编程能力大幅提升


更干净的一次性代码生成,更精确的「指令遵循」。

  • 新增「X high」推理层级


一种新的推理强度设定,能在不显著增加生成时间的前提下,增强逻辑推理能力。

  • 更新的分词器


坏消息是,Token消耗量将增加约30%。同样的prompt,新版分词器会用掉更多Token。


Mythos 1能用了?
Anthropic突然改口


比Claude 4.8更猛的是,那个传说中「太危险」的Claude Mythos真的要来了!

就在昨天,Anthropic发布首份报告,公开了过去一个月,Claude Mythos所有战果——

在关键软件中,10000万个高危漏洞全被揪出。


才过一天,AI测试追踪平台TestingCatalog爆料:

有用户在Claude界面中,短暂看到了「Mythos 1」模型选项。

虽然很快消失,但源代码中新增的字符串泄露了关键信息:Claude Code,Claude Security。

这意味着Anthropic正在将Mythos从一个受限的安全研究工具,升级为面向开发者的专业产品线

模型标识为「claude-mythos-1-preview」,明确指向代码生成和安全两大应用场景。

此前,Anthropic的口径一直是:Mythos太危险,不会公开发布。

但最新的Project Glasswing更新中,Anthropic的态度正在微妙转变,出现了一段耐人寻味的表述——

期待通用发布


这个措辞的转变,意味着Mythos走向大众只是时间问题。

与此同时,Claude Security的产品化工作也在加速推进。

一个全新的安全仪表盘正在搭建中,将展示已发现的漏洞、7天和30天历史图表、以及更深层的分类分析结果。目前仅面向企业客户。

这意味着,Anthropic正在将Mythos从一个「研究预览」转变为一个可商业化的安全产品矩阵:

  • Claude Code + Mythos:面向开发者的安全编程助手

  • Claude Security + Mythos:面向企业的自动化漏洞发现与修复平台


代码生成与代码安全,两手都要抓,两手都要硬。


三线作战,ASI竞赛加速


这一波连环曝光,彻底扯下了AI竞赛最后的温情面纱。

三线并进,火力全开。

Anthropic这一次倾巢而出的底牌,向全行业传递了一个极其明确的信号:

AI进化的速度,已经彻底脱离了线性叙事。


最让人细思极恐的,是走向商业化的Mythos 1。

作为曾经的「安全禁地」,它的解禁意味着,AI已经拥有了颠覆网络世界攻防格局的能力。

这恰恰是,迈向ASI阶段的必经之路。

超级智能的诞生,从来不只是拼算力和参数的堆砌,而是看它能否在拥有毁灭性破坏力的同时,具备绝对的自我规训与安全进化能力。

Anthropic正在用「代码+安全」的双螺旋结构,为通往ASI的暴力美学扣上最后一枚安全锁。

GPP-5.6、Gemini 3.5 Pro步步紧逼,在这场诸神之战中,谁能率先推开ASI的大门?

参考资料:

https://x.com/kimmonismus/status/2058226072596971694 

https://x.com/pankajkumar_dev/status/2057832457655959664 

https://www.testingcatalog.com/anthropic-prepares-mythos-1-for-claude-code-and-claude-security/


编辑:

桃子 David


秒追ASI
点赞、转发、在看一键三连
点亮星标,锁定新智元极速推送!


Claude Mythos 用 5 天时间 攻破苹果花 5 年打造的芯片级防线

苹果在 M5 芯片里埋了一道硬件级安全防线,花了五年,砸了数十亿美元。安全研究公司 Calif 用 Anthropic 的 Claude Mythos Preview,5 天就把它打穿了。

M5 芯片

这并非实验室模拟。是在一台真实的 M5 Mac 上,从普通用户一路打到 root 权限,所有的安全机制全程都是开着的。

然后,他们把 55 页报告打印了出来,亲自飞到库比蒂诺,当面交给了苹果。

01

超强 MIE 防线

被攻破的这道防线叫 MIE(Memory Integrity Enforcement)。

它是苹果基于 ARM 内存标签扩展(MTE)构建的硬件级内存安全系统,M5 和 A19 芯片的旗舰安全特性。

设计目标是:彻底消灭内存损坏类漏洞。

说起内存损坏(memory corruption),这是 iOS 和 macOS 上最常见、也最致命的漏洞类别了。过去十几年最复杂的 iOS 攻击链,几乎都依赖这类漏洞。

苹果的思路是,既然软件层防不住,那就把防线推到硬件层。毕竟苹果控制着从芯片到操作系统的整条链路,这个能力自己能做,别家学不来。

按苹果自己发表的研究,MIE 能打断所有已知的、针对现代 iOS 的公开攻击链,包括最近泄露的 Coruna 和 Darksword 漏洞利用工具包。

不少安全专家认为,苹果设备已经是消费级产品中安全性最高的平台了。

而 MIE,算是这顶皇冠上的宝石。

02

5 天破防

Calif 的时间线如下:

4 月 25 日,Bruce Dang 发现了漏洞。

4 月 27 日,安全研究员 Dion Blazakis 加入 Calif 团队。

Josh Maine 负责开发工具链。

5 月 1 日,完整的漏洞利用链跑通了。

从发现到出货,用时 5 天。而苹果从设计 MIE 到 M5 量产,花了 5 年。

攻击链的技术参数如下:

•  类型:data-only 内核本地提权(kernel local privilege escalation) 

•  目标系统:macOS 26.4.1(build 25E253) 

•  起点:非特权本地用户 

•  手段:仅使用普通系统调用 

•  终点:root shell 

•  涉及两个漏洞,多种利用技术 

•  裸机 M5 硬件,内核 MIE 处于开启状态 

最后这一点是关键:MIE 全程开着。

那……它怎么被绕过的呢?

答案藏在「data-only」这个词里。传统的内存损坏攻击,通常需要劫持代码指针(函数指针、返回地址等),让程序跳转到攻击者注入的恶意代码。MIE 的设计,正是为了拦截这种劫持。

而 Calif 没走这条路。他们没去碰代码指针,也没注入任何恶意代码,只动了内核中的数据结构。程序跑的还是原来的代码,但数据被「投毒」了,最终的效果则一样:拿到 root。

打个比方以便更好理解,MIE 相当于给金库装了指纹锁,任何试图暴力开锁的人都会被拦住。Calif 压根没碰那把锁,而是改了金库的库存清单,让系统「认为」他们本来就有进入权限。

MIE 守代码,Calif 攻数据

MIE 守的是代码完整性,Calif 攻的是数据完整性,方向不同。

03

攻击现场

Calif 在博客中放出了一段 PoC 演示。完整的 55 页技术报告得等苹果修复后才公开,但从这段演示里,整条攻击链的流程还是可以看个大概了。

首先是环境确认,左侧终端执行了系统信息检查:

环境:M5 Max,macOS 26.4.1

Apple M5 Max,运行 macOS 26.4.1,SIP(系统完整性保护)状态:enabled

所有的安全机制全部开启,没有作弊嫌疑。

接下来,执行漏洞利用脚本 ./run-krwd.sh

漏洞利用执行过程

攻击分了好几个阶段,Calif 给每个阶段都起了代号:

wibble 阶段是内存操作的核心。先是喷射了 8000 个内存对象(blob),然后从 1857 次运行中筛出 12 个候选目标。之后做了一系列探测(probe),通过匹配特定的 errno 返回值来精确定位目标内存区域,最终锁定了一对配对的文件描述符(fd=1782 和 fd=1627)。

spell 阶段完成了关键的内存布局准备,先 armed(就绪),再 verified(验证通过)。

guard clearedtunnel ready,安全检查被清除,通信通道准备完毕。

doodad 开始监听连接,等待 shell 接入。

然后……请看右侧终端:

Root Shell 到手

右侧终端在 4444 端口监听着。exploit 执行完毕后,一个 shell 自动连了进来。

执行 id

uid=0(root)

从普通用户到系统最高权限,整条攻击链全部跑通。

还有个彩蛋:

注入屏幕横幅

exploit 最后还注入了 macOS 的显示服务(SkyLight 框架),直接在屏幕顶部画了一条横幅:

「greetz from calif <3」

也就是说,攻击者不只是拿到了文件系统级别的 root,还能直接操作系统的图形渲染管线,往你的屏幕上写字。

非常张扬。

04

背后来头

辅助 Calif 完成这次攻击的 AI,是 Anthropic 尚未完全公开的模型:Claude Mythos Preview

Mythos 是 Claude 家族中专门面向网络安全的版本,今年 4 月通过 Project Glasswing 向少数合作伙伴开放。Glasswing 项目由 Anthropic 的 Logan Graham 领导,他在 X 上解释了为什么要这么做:

“ 我分享这些并不是为了给 Mythos 打广告。这件事的重点其实不在 Mythos 本身,而在于:我们需要为一个即将到来的世界做好准备,在那个世界里,模型在双重用途能力上会比一些最优秀的人类专家更快、更便宜、更有创造力。

而 Mythos 能力强到什么程度呢?Calif 在博客里的描述是:

“ Mythos Preview 一旦学会了如何攻击某一类问题,就能泛化到该类别中几乎所有问题。

即对于 AI 已经「见过」的漏洞模式,它能在新目标上快速复现。这次 Calif 发现的漏洞恰好属于已知类别,所以 Mythos 发现它们的速度非常快。

但 MIE 是一种全新的顶级硬件防护机制,想让 AI 完全自主地绕过它……目前还差点意思。这里(暂时)还有人类专家的价值所在。

Calif 想验证的命题是:当最强的 AI 模型与顶级安全专家联手,能做到什么?

这次给出的答卷是:一周内,攻破消费级设备上最强的安全防线。

05

两份成绩单

就在 Calif 公布 exploit 的同一周,两份独立评测也被公布,进一步证实了 Mythos 的能力。

英国 AI 安全研究所(UK AISI)对 Mythos Preview 做了端到端的网络攻击模拟测试。结果发现 Mythos 是第一个同时通过两套完整攻击模拟的模型

其中一套叫 Cooling Tower,此前没有任何 AI 模型能通过。Mythos 在 10 次尝试中成功了 3 次。

另一套叫 The Last Ones,Mythos 10 次中成功了 6 次。作为对比,OpenAI 的 GPT-5.5 后来也通过了 The Last Ones(10 次中 3 次),但始终没能攻破 Cooling Tower。

AI 网络攻击能力评测

UK AISI 还给出了一个更宏观的判断:前沿 AI 能完成的网络攻击任务长度,大约每 4.7 个月翻一倍。

而且这个速度还在加快,最新一代模型的表现已经超出了此前的趋势线。

XBOW(一家安全评测公司)则从攻防实战角度测了 Mythos。他们的评价是:

“ token-for-token,精度空前。

具体来说,和 Opus 4.6 相比,Mythos 在源代码审计中的误报率降低了 42%,是唯一能在 V8 引擎沙箱这种高难度目标上找到真实漏洞的模型。

Logan Graham 还提到,Glasswing 的合作伙伴在短短几周的测试中,已经用 Mythos 发现了数千个高危和严重级别的漏洞,有些机构的产出量达到了正常一年的两倍。

但 Logan 也说了句让人不太安心的话:

“ 一年之内,Mythos 可能看起来就很蠢了(相对于其他新模型而言)。而且其他机构可能会发布能力相当、但没有防护措施的开源模型。

06

亲赴苹果

Calif 没有走常规的漏洞提交渠道,选择了一种相当高调的方式。

他们在博客里说:

“ 大多数受人尊敬的黑客,都尽可能回避人际交往。所以亲自到场这种「物理策略」,或许能让我们在争夺五分钟 X 名气的竞赛中,占据一点优势。

于是他们把 55 页报告用激光打印机打了出来,Calif 说这是「致敬我们的黑客朋友们」。然后飞到了库比蒂诺。

研究员在 Apple Park

Apple Park 的东道主在聊天时提到苹果花了 50 亿美元建这座「办公楼」,顺口问了句 Calif 的办公室花了多少。

Calif 的回答:

“ 我们的,肯定不到 10 亿。

博客结尾引了一句越南谚语:nhỏ mà có võ,意思是「个头小,功夫深」。

这也算是 AI 时代的未来缩影:三个人加一个 AI,突然之间,就能做到了过去需要整个组织耗资巨大才能做到的事。

07

矛更快了

在博客最后,Calif 写了一段话:

“ 苹果在 Mythos Preview 出现之前的世界里构建了 MIE。我们即将见证,地球上最好的安全防护技术,在第一次 AI 漏洞大爆发中如何表现。

MIE 的设计者其实心里清楚,它从来不是「不可攻破」的。它的目标是让漏洞利用变得极其昂贵,昂贵到绝大多数攻击者无法承受。

过去,一个 iOS/macOS 内核级的完整攻击链,在零日漏洞市场上的标价通常在数百万甚至上千万美元。

而 AI 的介入,正在把这个门槛迅速往下压。

UK AISI 的数据里说道,AI 网络攻击能力每 4.7 个月翻倍,而且,还在加速。

安全领域的矛盾攻防已经持续了几十年,苹果造了迄今为止最硬的盾。

但矛……突然快了一个数量级。

矛,突然快了一个数量级

目前 55 页报告目前已经交到了苹果手里,而补丁发布之前,技术细节暂不会公开。

但我怎么有种不祥的预感:AI 正在让这个世界,变得越来越危险……

◇ ◆ ◇

相关链接:

•  Calif 博客原文:https://blog.calif.io/p/first-public-kernel-memory-corruption 

•  X 原帖:https://x.com/IntCyberDigest/status/2055281844816384262 

•  Logan Graham(Anthropic)关于 Mythos 的说明:https://x.com/logangraham/status/2054613618168082935 

•  UK AISI 评测报告:https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing 

•  XBOW 评测报告:https://xbow.com/blog/mythos-offensive-security-xbow-evaluation 


Meta 裁掉的 8000 人 是被自己做的工具替代

Meta 再次宣布裁员 8000 人
他们被自己做的工具替代

Meta 在一个季度赚了 268 亿美元之后,裁掉了 8000 人。


Mythos首个报告出炉 全球数十亿设备裸奔 30天挖出10000致命漏洞

  新智元报道  

【新智元导读】A厂的玻璃翼计划首战告捷,Mythos 30天内就挖出1万个致命漏洞,甚至拦截了150万美元电诈!面对雪片式的报告,人类程序员也崩溃求饶了:「求别挖了,根本修不完啊!」

就在刚刚,Anthropic又发布了一条震撼全球科技圈与安全圈的消息。

「玻璃翼计划」的首月战报,正式公布了!

在这场秘密行动中,Anthropic首次动用了下一代顶级大模型——Claude Mythos Preview。

在短短30天内,它联合了全球约50家网络巨头和关键基础设施软件开发方,一口气揪出了超过10,000个高危或严重级别的软件漏洞!

更恐怖的是,它不仅能找漏洞,还能「端到端」自动构建攻击链。

甚至在某家合作银行的真实业务中,成功拦截了一笔150万美元的电诈!

一时间,整个安全圈彻底震了。

有安全专家甚至在X上绝望惊呼:「互联网底座被AI翻了个底朝天……我们可能真的要凉了!」


疯狂的30天
全球科技巨头亲身体验,Mythos究竟多恐怖


2026年4月,Anthropic秘密启动了Project Glasswing。这个名字的寓意,是希望世界上最重要的闭源和开源软件变得透明且安全。

首批加入该计划的,是约50家关键基础设施软件开发方。

当他们拿到Claude Mythos Preview的测试权限后,短短一个月内,整个行业的三观都被震碎了。

来看看这份闪瞎眼的战报——

Cloudflare报告,在极度关键的核心路径系统中,Mythos一口气挖出了2000个漏洞!其中有400个属于高危或严重级别。

更离谱的是,Cloudflare的安全团队惊呼:这个AI的误报率,甚至比人类顶级安全测试员还要低。

在Mozilla最新的Firefox 150浏览器测试中,Mythos一口气修复了 271个高危漏洞。

这个数字是此前在Firefox 148版本中使用Opus 4.6所发现漏洞数的10倍以上!

OpenBSD报告的战绩简直让人毛骨悚然:Mythos在OpenBSD的代码库中,竟然揪出了隐藏了整整27年的陈年老Bug!

而且,模型甚至不需要人类插手,自己就构建出了完整的漏洞利用链。

英国AI安全研究所则给出了官方背书。他们确认,Mythos Preview是全球首个能够端到端完全攻克他们设置的双重网络靶场的AI模型。

Mythos在实战防御中,Mythos也大显神威。

在一家合作的银行中,一个黑客团伙已经成功入侵了客户的电子邮件,并使用了AI语音克隆技术拨打了欺诈电话。

就在这笔高达150万美元的电汇即将被转走的千钧一发之际,Mythos模型通过实时分析异常行为链路,瞬间识破了骗局并强行阻断了交易!

「我们这群人类安全专家,看起来就像是拿着长矛的原始人,看着一架F-22战斗机从头顶飞过。」 一位参与内测的安全研究员在X上感叹道。

全球数十亿台裸奔设备,被Mythos挽救了!

然而,Mythos也掀起一场产能危机。

在过去,网络安全界的核心瓶颈是发现漏洞。找到一个高危零日漏洞,顶尖白帽黑客可能要花上几个星期甚至几个月。

而现在,Claude Mythos把寻找漏洞的成本和时间直接打到了「无限趋近于零」。

Anthropic用它对全球1000多个支撑着互联网运转的核心开源项目进行了扫描。结果令人头皮发麻——

总共扫出 23,019 个漏洞,其中包含由Mythos评估的 6,202 个高危或严重漏洞!

为了确保不是AI在「胡言乱语」,Anthropic联合了6家全球顶尖的独立安全研究公司进行人工交叉复核。

结果证明:AI的真阳性(即漏洞真实存在)准确率高达90.6%! 最终确认其中有1,094个是铁证如山的高危或严重漏洞。

开源漏洞仪表盘,显示所有严重程度的漏洞

这里必须提一个极其典型的案例——wolfSSL。

wolfSSL是一个极其著名的开源密码学库,全球有数十亿台设备(包括物联网设备、路由器、智能汽车等)都在使用它。

然而,在Mythos面前,wolfSSL的防线形同虚设。Mythos不仅发现了一个极其隐蔽的逻辑漏洞,它甚至自己动手写出了一套攻击代码!

利用这套代码,黑客可以随意伪造数字证书,造出极其逼真的银行网站或者邮箱登录页,没有任何破绽。

如果这个漏洞没有被Mythos提前发现并提交修复,一旦被黑产利用,后果不堪设想。

全球数十亿台设备,其实一直都在危险边缘裸奔。这一次,是Mythos拉了回来。

史诗级反转:找bug不再是瓶颈,修bug才是!

随着Project Glasswing的推进,一个网络安全历史上从未出现过的奇葩现象诞生了。

「网络安全的瓶颈不再是寻找漏洞。现在的瓶颈是:人类修复漏洞的速度,远远跟不上AI发现漏洞的速度。」

对于开源社区维护者来说,这简直是一场噩梦。

Anthropic的漏洞报告就像雪片一样飞向各大开源社区。作者们已经招架不住了。

「别挖了!求求你们放慢速度!我们真的修不过来了!」

据Anthropic透露,近期有多位开源维护者发来「求饶」邮件,请求他们放缓漏洞披露的节奏。因为人手严重不足。

即使收到详细报告,人类程序员平均修复一个高危漏洞,依然需要整整两周的时间。

目前,Anthropic提交给开源作者的1129个漏洞中,目前只有75个高危漏洞被成功打上补丁。当前安全生态系统已经严重超载!

魔法打败魔法:Anthropic的防御

既然人类已经修不过来,那就用魔法打败魔法。

Anthropic果断抛出了「防御者工具包」方案。

首先是重磅上线的 Claude Security。

这是专为Claude企业版客户打造的自动化神器。它的逻辑是:我不光帮你找出代码库里的漏洞,我还直接把修复补丁给你写好。

上线仅三周,企业客户就已经用Opus 4.7光速修复了超过2100个漏洞!

其次是「网络验证计划」。

Anthropic开始允许专业的白帽子、渗透测试员和红蓝对抗团队,在合法合规的前提下,解除Claude模型的一些「安全紧箍咒」,用于合法的漏洞研究和靶场测试。

更有意思的是,Anthropic直接开源了一套「抓BUG流水线」。

1 定制化指令(Skills): 教你怎么让AI保持专注,进行深度的代码审查。


2 自动化框架(Harness): 一个能让Claude自动遍历庞大代码库、克隆子代理并行扫描、自动分拣漏洞并生成报告的指挥系统。 


3 威胁建模生成器(Threat Model Builder): 直接把代码丢进去,AI会自动识别系统里最容易被攻击的「软肋」,优先安排重点防御。

    网络巨头思科也站了出来,宣布开源「Foundry Security Spec」系统,搭建类似于Mythos的安全评估防线。

    从此,就是AI发现漏洞,再用AI生成补丁,人类只负责最后审核。

    这,才是未来网络安全的终极形态。


    达摩克利斯之剑:Mythos究竟何时公开发布?

    所以,Claude Mythos究竟什么时候正式开放?

    Anthropic目前的态度依然非常谨慎。

    他们表示,一旦构建出「更强大、更高级别的安全护栏」,Mythos级模型必将全面推向公开发布!

    现在还不能放出来,因为它实在太危险了。

    正如XBOW的测试报告所言:Mythos Preview在Web漏洞利用基准测试上实现了「对所有现有模型的跨代级大幅领先」,甚至在每一个Token的生成上都展现出了「绝对史无前例的精确度」。

    Anthropic非常清楚,目前世界上没有任何一家公司拥有足够强大的安全机制,能100%确保这个模型不被滥用。

    如果今天就把Mythos的API公之于众,明天全球的黑客组织、甚至某些极端组织,就能以极低成本批量生产出成千上万个Zero-day利用工具。

    普通人的电脑、医院的系统、电网的控制中枢,将面临一场浩劫!

    Anthropic给出的建议是:

    1 缩短补丁周期!缩短补丁周期!缩短补丁周期! 别攒着一个月发一次更新了,利用现有的AI工具(如Opus 4.7),尽快把安全修复推给用户。 


    2 强制升级策略。 开发者必须让用户尽可能无脑地安装更新,对于那些死活不升级的用户,采取强制断网。 回归安全基本功。 


    3 强化多因素认证(MFA)、加固默认配置、保留详尽的日志。风暴前夕的平静

    风暴前夕的平静

    一个月,超50家巨头联手,10000+致命漏洞,拦截150万美元电诈……这仅仅是Claude Mythos Preview小试牛刀的战绩。

    现在,人类程序员在经历阵痛期——被AI报告淹没,修补潜伏二三十年的bug。

    但正如Anthropic在所展望的那样——

    「跨越这些风险之后,一个令人振奋的世界正在向我们招手:在那个世界里,人类重要的代码将被淬炼得比今天坚固百倍,而黑客攻击,将成为极其罕见的历史名词。」

    让我们默默感谢一下那些不知疲倦地审查了数亿行代码的AI。

    很可能,它刚刚为你阻挡了一次致命的核爆。

    参考资料:

    https://x.com/AnthropicAI/status/20579091025425495


    编辑: Aeneas Moses


    秒追ASI
    点赞、转发、在看一键三连
    点亮星标,锁定新智元极速推送!



    OpenAI 后训练负责人 AI 没有突然变强 只是刚刚跨过一道坎

    纽约 VC Matt Turck 和 OpenAI 后训练负责人 Yann Dubois 做了一期深度访谈。

    访谈封面

    从 GPT-5.5 的发布内幕,到强化学习为什么突然管用了,再到 AI 行业最大的未解难题,这期对话干货密度很高。

    01

    他们是谁

    Yann Dubois 是 OpenAI 后训练前沿团队(Post-Training Frontiers)的联合负责人。他的团队负责的事情是:把一个什么都知道但什么都不太好用的大模型,变成一个真正能帮上忙的产品

    GPT-5.5、o3、GPT-5 Thinking,这些 OpenAI 最近的核心推理模型,都经过了他团队的手。

    Yann Dubois

    Dubois 是瑞士人,本科在 EPFL 学生物工程,后来在剑桥拿了机器学习硕士,又拿着 Knight-Hennessy 奖学金去 Stanford 读了计算机博士。读博之前,他还在新加坡的 Grab 做过 NLP,给泰语、高棉语、缅甸语这些小语种搭语言处理管线,覆盖了 4000 万用户。

    在 Stanford 期间,他做了两件影响很大的事:一是 Stanford Alpaca,用不到 600 美元的成本微调出了一个接近 GPT-3.5 水平的开源模型,直接点燃了整个开源后训练社区。二是 AlpacaEval,至今仍是业界最广泛使用的指令跟随模型自动评估工具之一。

    去年 GPT-5 发布时,他上台做了一个现场演示:让 GPT-5 给他的法语区家人做了一个法语学习应用,包含闪卡、测验和一个贪吃蛇小游戏,两分钟内写出 240 行代码跑起来了。(据他自己说,最后一次彩排的时候其实没跑通,所以上台时还挺紧张的。)

    Matt Turck 是纽约早期风投 FirstMark Capital 的合伙人。他从 2012 年开始每年发布一份 MAD(Machine Learning, AI & Data)Landscape 全景图,已经成了 AI 行业的年度必看图谱,2024 年版塞进了 2011 个公司 logo。他本人也是法国人,之前联合创办过企业级 AI 搜索引擎 TripleHop,后来被 Oracle 收购了。

    02

    跨过可靠性门槛

    Yann 在一开始就抛出了一个核心判断:AI 的进步其实一直是连续的,但人们的感受却像是一个台阶函数

    为什么呢?他给了三个原因。

    第一个,也是最关键的:可靠性终于跨过了临界点。

    “ 你需要达到这个可靠性水平,才能让 AI 工具真正有用。我认为我们大概在去年 12 月跨过了这道坎,至少在 OpenAI 是这样。现在我们可以信任这些模型来完成我们正在做的大量工作。

    他打了一个比方:如果你把 Agent 模型想象成每两分钟有一定概率出错的系统,那它运行时间越长,最终答案出错的概率就越高。而他们一直在做的事情,就是不断降低这个「每两分钟出错」的概率。

    当这个概率低到一定程度后,使用者的感受就会发生质变,即使进步本身是渐进的。

    跨过可靠性门槛

    第二个原因:模型开始加速自身。

    OpenAI 内部大量使用自家模型来写代码、搭工具、做研究。当模型变强了,内部研发的速度也跟着提上来了,形成了一个正向飞轮。

    第三个原因:强化学习从竞赛走向了现实。

    去年的 o1、o3 还主要在数学竞赛和编程竞赛上发力,因为这些场景容易判断对错。而今年,他们发现那些为「可验证奖励」开发的工具和方法,竟然也能用在真实场景里。

    从竞赛到实用,这是人们此刻真正感受到 AI 进步的原因。

    03

    发 GPT-5.5 像坐过山车

    每个看起来不错的模型,在 OpenAI 内部都会经历一轮情绪过山车:一开始所有人都很兴奋,然后逐渐有人开始质疑,说它在这个任务上不行、那个方面有问题,于是进入一段「唱衰期」。

    “ 这种波动在每个模型身上都会发生。GPT-5.5 也不例外,但它的波动幅度可能是最大的。大家先是非常兴奋,然后又变得不那么兴奋了,最终我们发布了,外界反馈很好。

    发布 GPT-5.5 的情绪过山车

    聊到最自豪的部分,他提了两点。

    一是效率,GPT-5.5 在大多数任务上的速度提升了大约 2 倍。

    二是整个公司的对齐,这个模型的成功,需要从预训练到推理优化到后训练的每个团队都朝着同一个方向发力。

    04

    纵向加横向

    这其实牵出了一个问题:OpenAI 内部到底是怎么组织团队的?

    Yann 解释说,他们有两类团队。

    纵向团队专注于特定的应用场景,比如有人专门做 Agent 编程,有人专门做计算机操控,有人做知识工作。每个团队在自己的垂直领域上推动改进。

    横向团队,就是 Yann 自己的团队,做三件事:

    决定最终训练中放什么进去、不放什么;把所有纵向改进整合到一起,跑大的训练任务;以及做那些横跨所有场景的通用改进,比如指令遵循、函数调用、思考时间分配。

    纵向团队与横向团队的协作

    好处在于,纵向和横向的改进可以正交地进行。可能这个版本只有一半的纵向团队做出了改进,下个版本就轮到另一半。

    05

    思考效率

    GPT-5.5 Thinking 和 GPT-5.5 Pro 到底有什么区别呢?

    Yann 的回答是:本质上只是测试时计算量的不同。模型想得越久,回答正确的概率就越高。但这条曲线是对数形式的,投入 2 倍的计算,可能只换来一点点提升。

    他自己其实不怎么用 Pro。

    “ 我个人不太用 Pro,因为我很没耐心,不喜欢等那么久。正确率确实会提高,但提升的幅度对我来说还不够值得。

    但有一群人特别喜欢 Pro:数学家

    他们可以把问题丢给 Pro,让它在后台跑一两个小时,不需要快速迭代。

    那效率提升是怎么回事呢?

    Yann 用了一个比喻:专家和实习生做同一个任务。实习生可能要花一两天,还要尝试十个方向,因为他不知道哪条路是对的。而专家凭经验就知道该走哪个方向,不会浪费时间在错误的路径上。

    专家 vs 实习生的思考效率

    模型的效率提升,本质上就是让它变成「专家」,知道哪条推理路径更可能正确。

    而更大的模型天然更高效,因为它已经通过权重「思考」了一部分问题,不需要在推理时用额外的 token 来想。虽然模型更大意味着单个 token 的成本更高,但大模型在 GPU 上更容易做并行优化,总体效率反而更好。

    06

    预训练没撞墙

    去年 AI 行业里的一个大叙事是「预训练撞墙了」。

    Yann 说他两年前也这么想过,但现在看来,这堵墙并没有出现。

    “ 你看 Anthropic 的 Mythos,从模型成本就能看出来它显然是个大得多的模型。它们仅靠增大模型规模就获得了很好的性能。我觉得业界至少有一部分人对此感到意外。

    那数据墙呢?数据不够用了怎么办?

    他说各家公司似乎找到了各自的方法来绕过互联网数据不够这个问题。至于是不是靠多模态数据或合成数据……他不能说太多,但他给了一个挺坦诚的观察:

    “ 你看 Anthropic 的模型,它们在多模态上并不是特别强,但它们依然非常聪明。所以多模态数据,至少没有我以前想的那么必要。

    预训练没撞墙

    他认为,多模态数据真正发挥作用的时刻,可能要等到具身智能(embodied AI)成熟的时候。机器人在物理世界中的交互,能帮模型获得目前纯文本很难学到的常识,比如……重力是什么感觉。

    07

    图书馆到专家

    Yann 用了一个比喻来解释「预训练 → 中训练 → 后训练」这条流水线,很容易理解。

    预训练,就像走进一座图书馆。理论上所有信息都在那里,但你得自己翻。而且图书馆里什么都有,广告、论坛灌水帖、维基百科,一视同仁地全学了。

    中训练(Mid-training),是从图书馆里挑出高质量的书,多读几遍。比如 Wikipedia、GitHub 代码这些信息密度更高的内容,会被加权训练。

    后训练,则是把一个读过所有书的「学霸」变成一个你可以直接提问的「专家」。你不需要自己去翻书了,直接问他就行,他能理解你的问题,并给出有用的回答。

    从图书馆到专家的流水线

    后训练的两个核心阶段是:

    SFT(监督微调):让人类标注员提供标准答案,模型来模仿。问题是,模型的能力被标注员的水平给锁死了,永远不会超过「老师」。

    强化学习(RL):不再给标准答案,而是给一个评判规则。模型自己尝试各种回答,对的奖励,错的惩罚。这样它可以超越人类标注员的水平。

    开源社区的通常做法是:先做 SFT 让模型到达一个不错的基线,再用 RL 来突破上限。因为如果直接上 RL,模型需要「碰巧」找到正确答案才能被奖励,这个过程太低效了。

    08

    RL 为什么管用了

    强化学习以前不是出了名的「不好使」吗?

    Yann 承认,两年前大多数研究者(包括他自己)都觉得 RL 太不稳定了,不值得折腾。他看到 ChatGPT 用了 RLHF 的时候,第一反应是:我不用 RL 也能做到一样好。Stanford Alpaca 就是这个思路的产物,只用 SFT 来复现 ChatGPT 的效果。

    Yann LeCun 也说过一句著名的话:强化学习只是蛋糕上的那颗樱桃。

    强化学习的逆袭

    但现在情况变了。

    “ 似乎在模型跨过了一定的规模之后,也就是模型已经对世界有了足够好的先验知识之后,强化学习就开始管用了。这不仅仅是 LLM 的现象。机器人领域似乎也在进入同样的阶段,他们也发现,用那些已经了解世界的模型来做 RL,效果好得多。

    在开源社区里,方法也在收敛。以前有 PPO、DPO、各种 XPO,现在大家基本都用 GRPO。原因很朴素:GRPO 是一个极简的方法,采样大量回答,判断哪个对,强化对的。

    “ 在机器学习中,我们反复看到这样一个规律:最简单的、可以用计算来扩展的方法,最终总是赢的那个。

    但 RL 也不是没有挑战。

    基础设施层面,采样海量回答的计算开销相当大。

    机器学习层面,Agent 任务中最头疼的问题是「归因」。一个 Agent 跑了很长一段推理流程,最终拿到了一个对或错的结果。但到底是哪一步导致了成功或失败呢?信息太稀疏了,很难精确归因。

    09

    手艺还是科学

    有人说 AI 系统并非被「构建」出来的,而更像是被「生长」出来的。Yann 的看法是:

    “ 通常的规律是:一开始是手艺。人们尝试很多东西,逐渐建立起什么管用、什么不管用的直觉。然后随着时间推移,才慢慢过渡到科学。

    科学方法很少是最先奏效的那个。很少有人拿出一个严格的理论推导说这就是最优方案,然后一做就成了。人们就是有某种炼金术的直觉,先把它搞定,然后再去理解为什么它管用。

    先手艺后科学

    先手艺,后科学。两者缺一不可,只是处于流水线的不同阶段。

    10

    泛化的真相

    GPT-5.5 在 Agent 编程、计算机操控、知识工作上都有不错的表现。这是因为在每个领域分别做了专门训练吗?

    Yann 认为,泛化主要发生在能力层面,而不是领域层面。

    如果一个模型在数学竞赛上表现突出,它在编程竞赛上通常也不差。因为需要的底层能力是一样的。反过来说,如果一个模型在某个方面有缺陷(比如幻觉),那它在所有领域都会有这个缺陷。

    但有一类泛化,到现在还是个难题:从精确定义的问题到模糊的现实世界。

    “ 数学竞赛和编程竞赛的题目定义非常精确,五行或十五行就包含了你解题需要的所有信息。但在真实世界里,如果我是一个咨询顾问或金融从业者,我首先得上网去搜索、提取各种信息,仅仅是为了理解问题本身,然后才能开始推理。

    从精确到模糊的泛化

    这也是为什么幻觉在每个领域都存在:不知道就胡说的毛病,是一个横向能力缺陷,而不是某个领域的特定问题。

    11

    RL 如何治幻觉

    说到幻觉,Yann 引用了 John Schulman 的一个经典分析。

    SFT 其实可能会制造幻觉。为什么呢?

    假设模型并不知道某篇论文的存在,但在 SFT 的标注数据里,标注员引用了那篇论文作为答案的出处。模型被训练去模仿这个回答,结果它学到的是:引用一个自己根本不知道存在的东西。

    强化学习则天然避开了这个坑。

    因为 RL 是从模型自身的采样开始的。模型不太可能自己生成一个它不知道的东西,然后恰好还是对的。所以它几乎不会被奖励「编造」的行为。相反,它生成了不知道的东西并且错了,就会被惩罚,这个行为就被抑制了。

    SFT vs RL 对幻觉的不同效果

    SFT 在教模型「自信地引用不存在的东西」,RL 则在教模型「别说你不知道的事」。

    12

    显式与隐式

    不过 RL 也会带来一些「负面泛化」。

    Yann 举了一个具体的例子:显式指令遵循 vs 隐式指令遵循。

    如果你让模型修改一个文件,但文件名打了个错字,一个在显式指令遵循上训练得特别到位的模型,会老老实实地去修改那个打错名字的文件。但人类同事大概会发现你打错字了,自动改正。

    “ 有时候我们会听到 OpenAI 的模型在你明确告诉它你想要什么时特别好用,但如果你说得不够明确,就没那么好了。

    显式指令遵循 vs 隐式指令遵循

    这就是横向能力之间可能存在的冲突:你在显式指令遵循上做得越好,可能在理解隐含意图方面反而有退化。

    13

    RL 能覆盖全行业吗

    那么,强化学习到底能不能推广到法律、医疗、金融等所有领域呢?

    Yann 认为可以,但有两个现实瓶颈。

    一是人的瓶颈。做 AI 模型的人大多自己就是程序员,天然理解编程场景需要什么。但要让模型在法律领域做好,你需要真正懂法律的人来参与评估和数据收集,而这样的人不多。

    二是奖励设计的难度。有些领域天然容易做 RL,比如网络安全:你找到了一个漏洞,它要么是真的要么是假的,验证成本极低。但在法律或医疗领域,「正确」的标准本身就含糊得多。

    哪些领域适合 RL

    “ 模型在能力上并没有什么天然限制,不会让它在法律或医疗领域永远做不好。真正的限制是:我们对这些领域了解得还不够,而且有些领域做强化学习确实更容易一些。

    14

    评估的困境

    模型越强,评估就越难。

    “ 现在我可能只需要说「帮我建一个做 X 的网站」。以前我会说「这段代码里有没有 bug」。后者很容易判断,因为可以让人列出所有 bug 然后自动对比。但前者有很多正确答案,很多种方式都可以把网站做好。

    另一个棘手的问题是:模型在某些领域已经超过了大多数人类,能做评估的人越来越少。

    还有一个文化层面的原因:

    “ 大多数人都想做模型训练,他们觉得那才是有影响力的工作。但发现问题、量化改进,其实同样重要甚至更重要。不过文化上总是有这种差距。

    他自己加入 OpenAI 时,第一个选择就是做数据和评估,因为他知道没人在做这个,所以影响力一定最大。

    Model-as-Judge(模型当裁判)是他认为最重要的方向之一。更好的模型可以成为其他模型更好的老师和评判者,形成一个能力飞轮。

    但这也带来了一个尴尬的副作用:每次你建了一个好的评估集,它其实同时也是一个优质的训练集。模型在类似的数据上训练后就能在这个评估上拿高分,然后评估就失效了。

    评估的保质期越来越短

    评估的保质期,正在变得越来越短。

    15

    三年了还没解决

    Yann 说他最兴奋的方向是持续学习(Continual Learning),但同时他也承认:这个问题到现在还没被真正解决。

    他的一个朋友提出过一个思维框架,听完之后挺受启发:

    想象一个坐标轴,X 轴是时间,Y 轴是对用户的实用性。

    AI 模型在 t=0 的时候,可能比大多数新员工都有用,起点相当高。但接下来,这条曲线基本是平的,因为模型不会真正学习公司内部的知识,也不会随着时间变得更高效。

    人类新员工的起点低,但学习曲线陡得多。

    AI 与人类的学习曲线对比

    真正重要的是曲线下面的面积,也就是累积价值。 按照这个指标,人类在很多场景下依然胜出。

    “ 三年前 ChatGPT 刚出来的时候,我和朋友在想要不要做持续学习和个性化的创业。我们当时觉得,啊,OpenAI 六个月内肯定就会搞定这个。他们有所有数据,有所有用户,模型会从用户那里学得飞快。三年过去了,我觉得我们还没到那里。

    他坦言自己其实也不完全理解为什么这么难。对于单个用户的持续学习,他认为如果真的投入足够的资源,应该是能解决的。

    但到今天为止,它还是一个未解之谜。

    16

    Harness 的有效期

    关于最近 AI 行业里热议的一个话题:模型会不会把 Agent 框架(harness)给「吃掉」?

    Yann 对这个问题的态度算是比较务实:harness 短期内有用,但别指望它能长期不变。

    “ 如果你是一家做特定垂直领域的公司,你想把可靠性从 80% 提到 85%,harness 可以帮你做到。但你要知道,未来你需要重新调整这个 harness。

    如果你想做一个通用的、能长期稳定的 harness,我觉得那行不通。

    然后他说了一句让人意外的话:

    “ 如果我们把现在的模型冻结住,认真去做 harness,我觉得人们在几乎每个领域都能感受到 AGI 了。

    Harness 的有效期

    他的意思是:模型能力其实已经够了,差的是包装和最后一公里的工程。但因为模型在不断进步,最优的 harness 也在不断变化,所以没人知道最终形态会是什么样。

    17

    最后一公里

    对话的最后,Matt 问了一个创业者最关心的问题:模型越来越强,创业公司还有空间吗?

    Yann 毫不犹豫地点了头。

    “ 很多人觉得瓶颈是「智能」本身,也就是模型的原始能力。但我不这么认为。大多数时候,真正的瓶颈是最后一公里。

    确保模型有正确的权限、正确的数据连接器、正确的领域知识。我们会非常专注于通用能力的提升,而垂直领域的价值挖掘,应该由其他公司来做。

    他鼓励创业者继续在垂直领域深耕。在他看来,在 OpenAI 停止做横向进步之前(他认为短期内不会发生),创业公司在垂直领域的空间会一直存在。

    从通才到专家的最后一公里

    模型是通才,但用户需要的是专家。从通才到专家之间的距离,就是创业公司的生存空间。

    ◇ ◆ ◇

    相关链接:

    YouTube 视频:https://youtu.be/DhD1zZ8w8Mw

    Yann Dubois X:https://x.com/yanndubs

    Matt Turck Blog:https://mattturck.com


    OpenAI 官方分享 如何榨干 Codex

    前两天,OpenAI 内部的一位工程师 Jason Liu 发了一篇长文,Getting the most out of Codex(如何把 Codex 榨干)。

    Getting the most out of Codex

    算是官方下场,手把手教你怎么把 Codex 的能力压榨到极限。

    01

    关于作者

    Jason Liu(@jxnlco),目前是 OpenAI Codex 团队的开发者体验工程师

    Jason Liu

    他出生在中国北方,靠近蒙古草原的边境地带,自称是「北方华裔蒙古人」。从小在加拿大长大,在安大略省的一所公立艺术学校读了四年高中,学数字动画和设计。本科考进了滑铁卢大学读计算数学和统计,最早学的其实是数学物理,后来才转向计算机。

    他职业生涯的主要轨迹是:Meta 做内容审核算法,然后去了 Stitch Fix(美国一家时尚电商)做了五年机器学习,一路做到 Staff Engineer。在 Stitch Fix 的时候,他搞了一套多模态嵌入系统(ResNet-50、CLIP+GPT-3),还开发了个叫 Flight 的内部框架,每天处理 3.5 亿次请求,内部采用率 80%。

    离开 Stitch Fix 之后,他创办了 567 Studios 做独立咨询,客户包括 Zapier、HubSpot、Weights & Biases、Pydantic 这些公司。同时还在 Maven 上开课教 RAG 和 AI Agent,学员来自 OpenAI、Anthropic、Google、微软等 50 多家公司。

    职业轨迹

    不过他最广为人知的身份,可能还是开源项目 Instructor 的作者。

    这个库有 1.3 万 GitHub 星标,月下载量超过 600 万,能用 Pydantic 从 LLM 输出中提取结构化数据。OpenAI 官方后来推出的 Structured Outputs 功能,明确表示受到了 Instructor 的启发。

    他此前曾发过一条推,调侃在 OpenAI 的经历:

    “ 我申请 OpenAI 的时候,以为自己会做 evals。签合同的时候,以为会做 agents。入职的时候,以为会做 Codex。工作一个月后,以为会做知识工作。结果现在……我在做动态图形。

    总之,这位在开发者工具和 AI 应用领域浸泡了快十年的人,现在专门负责 Codex 的开发者体验。他基于内部视角对外写的这篇指南,值得我们一读。

    02

    持久线程

    文章开头提出了一个核心概念:Durable Threads(持久线程)

    Codex 的线程不是一次性的短对话,它是一个持久化的工作空间,关掉再打开,之前的决策、偏好和工作上下文都还在,不需要从头来过。

    Jason 建议用户把不同类型的工作分配到不同的固定线程中:

    首席幕僚线程,处理日常杂务、收发邮件、安排优先级

    发布管理线程,追踪版本发布进度

    文档审查线程,持续审核和更新文档

    外部监控线程,跟踪外部信息变化

    持久线程

    Command-1Command-9 快捷键可以直接跳到对应线程,把它们当作常驻工作台来用。

    这和 Claude Code 的 memory 系统有异曲同工之处,只是 Codex 选择了一条更「显式」的路:你自己决定哪些上下文需要保留,而不是让模型自动记忆。

    03

    语音输入

    语音输入我一直就在使用,叫:我做了一个 AI 时代的效率神器,已开源。语音输入这个功能乍一看可能平平无奇,但用过之后你就再也回不去了。

    Jason 分享的用法是:在想法还没成形的时候,先用语音把粗糙的念头倒出来。

    比如这样说一句:

    “ 我记得有个叫 Ben 的人在 Slack 里提了这个事,具体细节我忘了,你去找找。

    语音输入

    语音的好处在于,它保留了思考中的不确定性和强调重点。两三分钟的语音倾倒,比花五分钟写一段精确的 prompt 效率要高许多。

    而且原始的语音转录稿(包括犹豫、强调、没说完的半句话)比整理过的摘要信息量更大。开会的时候直接把会议录音喂给 Codex,比自己写会议纪要效率要高得多。

    04

    实时干预

    这部分 Jason 提出了两个控制机制,解决的是同一个问题:人不需要等 Agent 做完才能参与

    Steering(实时干预),在 Agent 执行过程中随时打断纠正。比如看着它做网页,直接说「这个间距不对」「这段文案不对」。不用等它做完再推翻重来。

    实时干预

    Queuing(任务排队),不打断当前任务,直接追加后续指令:「做完之后,把预览链接发给 Slack 里的审阅者。」

    一个是纠偏,一个是追加。两者配合的效果是:你可以一边看着 Agent 干活,一边实时调整方向,同时把后续任务排好队。整个过程不需要停下来重新写 prompt。

    05

    从编程到万能

    接下来是 Codex 能力边界的扩展,这部分是整篇文章最关键的信息。

    Jason 把 Codex 的操作范围分成了几个层次:

    内置浏览器,在侧边栏中检查和标注网页

    Chrome 级工作流,使用你已登录的浏览器状态,处理需要身份验证的操作

    桌面 GUI,操作那些只有图形界面的应用

    MCP 服务器和连接器,把能力延伸到更广泛的工作流中

    从编程到万能

    也就是说……Codex 已经不只是个写代码的工具了。

    它可以帮你看 Slack、查 Gmail、操作 Google Docs,甚至在你的电脑桌面上点来点去。Jason 在文中的原话是:

    “ 从指令到执行到产物审查,即便工作已经超出了代码仓库的范围。

    06

    技能和云端

    Skills(技能) 的概念和 Claude Code 的 Skills 有些类似:把验证过的工作流封装成可复用的模块,下次直接调用,不需要重新教一遍。

    技能和云端

    另一个值得关注的是 Cloud Context(云端上下文)。Codex 的任务可以从电脑上启动,然后在手机上继续跟进。你可以离开工位,让 Codex 在后台跑更长的任务,随时从手机上审批下一步、或者重新调整方向。

    也就是说,Codex 不只是一个绑定在本地终端上的工具,它的工作状态是跟着账号走的。

    07

    两种自动化

    Codex 区分了两种自动化模式:

    定时自动化(Scheduled Automations),按时间表运行,每次从头开始。比如每天早上生成一份日报,或者定时检查某个仓库的状态。

    线程自动化(Thread Automations),在同一个线程中定时唤醒,带着之前的上下文继续工作。

    Jason 举了个例子:

    “ 每 30 分钟检查一次 Slack 和 Gmail,找到需要我关注的未回复消息。帮我排出优先级。如果有人问了我一个问题,尽可能深入地研究答案,帮我起草回复,但不要发送。

    这就是个全天候在线的私人助理

    你离开电脑,它在后台帮你收集信息、整理回复、跟踪 PR 评论。等你回来,昂贵的上下文收集工作已经做完了,你只需要审阅和确认。

    两种自动化

    线程自动化还有一个用法,是用来做反馈循环。比如让它持续关注 PR 评论、Google Docs 里的批注、或者 Slack 频道的回复,在你离开的期间保持工作推进。

    这个设计的核心洞察是:Agent 最有价值的能力,不在于它能替你做什么,而在于它能替你等什么。

    08

    目标驱动

    /goal 是 Codex 上个月推出的新功能,我之前写过一篇文章专门介绍,Codex 推出 /goal 功能,不达目标,不罢休

    简单来说,Goal 就是给 Agent 设定一个明确的终点线,让它自己跑到终点。

    Jason 在文中区分了「弱目标」和「强目标」:

    弱目标:「按照这个 Markdown 文件里的计划实现。」

    强目标:把一个 Python 项目迁移到 Rust,用单元测试作为成功标准。

    目标驱动

    好的目标需要配套验证机制

    • 测试套件

    • 基准测试

    • Bug 复现步骤

    • 端到端工作流

    Jason 的总结是:

    “ 野心当然重要,但没有验证机制,它终归只是个愿望。

    09

    侧边栏

    侧边栏(Side Panel)承担了四个功能:检查产物、标注修改、操作网页、审查代码变更。

    Codex 侧边栏,CSV 文件

    它支持的格式包括 Markdown、电子表格、数据表、文档、幻灯片、代码、PDF 等等。

    Jason 特别推荐了几种适合在侧边栏中使用的产物格式:

    index.html,轻量级静态产物,不需要服务器

    Storybook,UI 组件审查

    Remotion Studio,程序化动画

    浏览器幻灯片,演示文稿

    数据应用,分析工作流

    Codex 侧边栏,PDF 和标注

    一个单独的 index.html 文件就能创建出不需要服务器的交互式产物。配合线程自动化,还能定时刷新这些静态产物,让你每次回到线程时都能看到最新内容。

    Codex 侧边栏,幻灯片

    而且你可以直接在侧边栏的渲染界面上做标注,标注会留在工作循环中,不会变成单独的「交接文档」。

    10

    共享记忆

    这部分和 Claude Code 的 memory 系统有些类似。

    Jason 的建议是:重要的上下文不应该只存在对话记录里,要写到一个 Agent 下次能找到的地方。

    他推荐的方案是用一个 Obsidian 知识库来存储持久信息:

    ●●●

    vault/
    ├── TODO.md
    ├── people/
    ├── projects/
    ├── agent/
    └── notes/


    QoderWork Design 上线 设计即代码 不输 Claude Design

    产品体验

    纳德拉拆掉微软旧王座 苏莱曼总攻超级智能

      新智元报道  

    【新智元导读】纳德拉亲手拆掉微软旧高层:30多年老臣集体退场,连AI掌门苏莱曼也交出Copilot、转攻超级智能。纳德拉要把一家22.8万人的巨舰,改造成一家AI时代的创业公司。至今,没有一家巨头证明过这条路走得通。

    微软的旧高级领导团队,没了。

    就在过去几个月,纳德拉亲手拆掉了这套统治微软几十年的高层架构。

    微软CEO纳德拉(Satya Nadella)

    据Business Insider报道,纳德拉已经「悄悄废除」了运行数十年的高级领导团队SLT(Senior Leadership Team,高级领导团队)。

    取而代之的,是一个只有5人、每周开会的新核心圈corporate leadership(公司领导层),外加一个约35人的工程领导组,纳德拉还亲自每周审一遍AI指标。

    几十年来,SLT由直接向CEO汇报的几位重量级高管组成,每人手下掌管一片庞大的业务版图,是微软的权力中枢。

    一名接近纳德拉的人解释了这次高层大重组的原因:AI平台迁移的速度,比微软过去见过的任何变化都快。

    在AI时代,这艘22.8万人的巨舰,反而成了微软甩不掉的包袱。

    纳德拉直言,微软的庞大体量在AI时代成了「巨大劣势」。为此,他把周末都用来研究创业公司,琢磨这家巨头未来该往哪里变。

    二十多年前,贝索斯就拿微软当过反面教材。在他口中,微软是一个员工可以「养老」的乡村俱乐部。

    如今,这所乡村俱乐部的主人自己先坐不住了。

    苏莱曼专注超级智能

    在这一轮重组里,微软AI部门的一号位也调整了方向。

    Microsoft AI的CEO苏莱曼(Mustafa Suleyman),下一步的工作重心将转向超级智能。

    在职位上,微软官方仍然称他为执行副总裁兼Microsoft AI的CEO。

    在3月17日的Copilot重组公告里,苏莱曼发给员工的信中写明,下一阶段他将把全部精力放到Superintelligence上,Copilot体验的日常负责权,交给Jacob Andreou。

    Mustafa Suleyman,微软执行副总裁、Microsoft AI CEO。2026年3月Copilot重组后,他将更多精力转向超级智能。

    Business Insider看到的组织图显示,苏莱曼现在直接管约650人,是一个比原先MAI整建制更小的范围。

    在官方语境中,这是一次聚焦:苏莱曼将从产品体验的细节里抽出来,专注去做最难的事——未来5年内为微软交付世界级的前沿模型。



    三个小组
    重画微软权力地图

    据Business Insider报道,取代SLT的,不是一个新的庞大领导层,而是几个各管一摊的小团队。

    第一个是公司领导层,5个人:纳德拉自己、总裁Brad Smith、CFO Amy Hood、首席人力官Amy Coleman、商业CEO Judson Althoff。每周至少开一次会,聚焦公司层面的运营和治理。

    第二个是工程领导组,约35人,由工程师、研究员、产品负责人和设计师组成,按纳德拉多次公开称赞的创业公司式扁平协作运作。

    第三个是Copilot领导组,专管微软的AI助手:Charles Lamanna管平台,Jacob Andreou管用户体验,Ryan Roslansky管应用层。三人每周和纳德拉单独开一次站立会议。

    旧SLT那种一人统管一片庞大业务版图的结构,换成了一组更小、更扁平、离一线更近的小组。

    纳德拉自己也走进了一线。他每周亲自审一遍AI指标,每两周和Azure基础设施团队开一次会。一个CEO,介入到了产品级的细节。

    乔治城大学麦克唐纳商学院副教授Jason Schloetzer在评价微软这次重组时说,要打赢更敏捷的对手,公司必须改善信息流,让对的人在对的时间拿到对的信息。



    老臣集体退场
    30年以上的微软老兵出局

    跟SLT一起退出舞台中央的,是一批工龄30年以上的微软老兵。

    Rajesh Jha,35年。

    微软最有影响力的产品负责人之一,3月12日官宣7月1日退休,转任顾问。

    Rajesh Jha,原微软Experiences + Devices执行副总裁。

    他原来的岗位,由Perry Clarke、Charles Lamanna、Pavan Davuluri、Ryan Roslansky四人接班,全部升任EVP(执行副总裁),直接向纳德拉汇报。

    纳德拉在内部告别信里写,Jha是贯穿了他整个微软生涯的一个「常量」。如今,这个「常量」,开始从权力前台退场。

    Yusuf Mehdi,35年。

    微软消费业务CMO,将在下一财年期间留任过渡。在正式离开前,他将帮微软「为agentic时代重新构想Windows」。

    Yusuf Mehdi,微软执行副总裁、消费业务首席营销官,即将在下一财年结束后离职。

    Phil Spencer,38年,掌管Gaming业务12年。

    去年秋天他向纳德拉提出想退下来,2026年2月微软宣布Asha Sharma接任Microsoft Gaming CEO,Spencer进入交接,并将以顾问身份留任至夏季。

    这12年里,他把Gaming做到接近三倍规模,主导了对动视暴雪、ZeniMax、Minecraft的收购,其中动视暴雪收购案,是 Xbox 25年历史里最重的一笔。

    Phil Spencer,微软 Gaming 前掌门人,在微软任职 38 年后退休。

    最戏剧性的一笔,落在Charlie Bell身上。

    他2021年从AWS加入微软,被广泛视为AWS核心架构师之一,来微软是为了执掌一个1万人的安全组织。Business Insider看到的最新内部组织图显示,他现在的职位标注是工程师,下属人数为零。

    Charlie Bell,原微软Security执行副总裁,2021年从AWS加入微软。

    官方的说法是,Charlie主动想从组织管理者回到一线工程师状态,纳德拉2月的公告也确认了这一点。

    微软这一轮高层换血,第一刀,切在了最资深的那一档。



    外来空降,内部提拔
    有人一年就升到执行副总裁

    老臣腾出来的位置,正在被一批外来高管和年轻工程派填上。

    Hayete Gallot,今年2月回归微软出任负责安全业务的执行副总裁,向纳德拉汇报。

    她在微软干过15年,几年前离开去Google Cloud做客户体验总裁,这次回流接管整个安全业务。

    纳德拉在内部公告里评价她「兼具产品建设与客户价值兑现」。Business Insider称,Gallot已经进了纳德拉的核心圈。

    Hayete Gallot,微软执行副总裁、安全业务负责人。

    Asha Sharma,2月升任Microsoft Gaming CEO。

    加入微软前,她做过Instacart的COO,更早在Meta任副总裁。2024年她进入微软Core AI,这次跨业务接管Xbox。

    Asha Sharma,前Instacart COO、Meta副总裁,2026年2月升任Microsoft Gaming CEO。

    Jacob Andreou,原Snap高级副总裁,去年才加入微软任CVP。今年3月升执行副总裁,接管Copilot体验跨消费和商业的全部产品线。从入职到进入Copilot三人组,他只花了一年左右。

    Jacob Andreou,微软执行副总裁、Copilot 负责人。

    外部人才空降之后,内部提拔同步推开。

    Charles Lamanna是微软老兵,原本就在Copilot体系内,现在管Copilot平台。

    Ryan Roslansky从领英CEO的位置调过来,现在负责Office大部分业务和Copilot应用层。

    Pavan Davuluri是25年微软老兵,Surface团队出身,3月接手Windows和设备组。

    Arun Ulag今年4月升执行副总裁,业务范围从Fabric数据平台扩展到更大的战略角色。他名义上向云业务老板Scott Guthrie汇报,但纳德拉「把他当直接汇报对象处理」。



    这场重组
    纳德拉准备了整整一年

    纳德拉为什么非动刀不可,原因主要有三个。

    第一个是投资人压力。2025年,微软股价经历了2008年金融危机以来最差的一个季度。投资者要看到那几千亿美元的AI投入开始产生回报。

    第二个是规模。纳德拉本人公开说过,微软的庞大体量「成了AI时代的巨大劣势」。22万多人的组织效率,很难与硅谷那些AI创业公司竞争。

    第三个是AI业务跑得太快,组织跟不上。2026财年第三季度,微软AI业务的年化收入运行率已经超过370亿美元,同比增长123%。AI业务增长要求组织也必须与之对齐。

    这也解释了,为什么过去一年,纳德拉一直在研究创业公司。

    2025年10月,他先把商业业务CEO的位置交给Judson Althoff,让自己抽身去做技术工作。

    11月,他找来一位曾帮微软搞过云重组的顾问,重新算「AI时代的经济账」。

    随后,纳德拉解散SLT,并扩大了「加速器」会议。这是他去年开始办的一种会——高管退到后排,让一线员工直接提想法、讲他们在前线看到的问题。



    不止微软
    硅谷巨头集体动刀

    据Business Insider报道,Meta启动了一轮约8000人的裁员,同时把约7000名员工「征召」进AI相关的新项目。

    Meta首席人力资源官Janelle Gale在内部备忘录里写下的目标,和纳德拉的几乎是相同的关键词:更扁平的组织,更小的团队,更快的执行。

    不同的是纳德拉拆的是微软高层,扎克伯格则是要把整个组织按AI工作流重做一遍,传统中层管理被点名为「速度的瓶颈」,工程团队被拆成创业公司式的小组。

    两家重组还有一个共同点:都不是因为缺钱。

    微软AI业务年化收入运行率超370亿美元,Meta一季度营收563.1亿美元、同比增长33%。重组的主题都是围绕AI。

    在AI时代,硅谷巨头们正意识到同一件事:组织结构本身,也成了一个需要被重新设计的产品。

    参考资料:

    https://www.businessinsider.com/business-insider-today-newsletter-microsoft-leadership-change-2026-5%20

    https://www.businessinsider.com/satya-nadella-microsoft-ai-leadership-reset-2026-5


    编辑:元宇 Moses


    秒追ASI
    点赞、转发、在看一键三连
    点亮星标,锁定新智元极速推送!



    给AlphaFold2开刀 GPT 5 5自进化 狂肝150小时改进蛋白质折叠

      新智元报道  

    【新智元导读】有人晒出开源项目:GPT-5.5连续狂飙150小时,自主挑战诺奖级AlphaFold2!它用拓扑「单纯形」重构蛋白质折叠逻辑,虽然性能暂未登顶,却展示了AI科学家的恐怖潜力:秒回滚、零情绪、全自动进化。科研范式,真要变天了。


    就在最近,GitHub上一个名为SimplexFold 的开源项目突然火出了圈。


    它的共同作者名单里,居然出现了这样一个名字——GPT-5.5!



    Meta的机器学习工程师、开源社区硬核黑客Chris Hayduk爆料:他让GPT-5.5开启了「全自主目标模式」,在没有人类干预的情况下,连续不间断地疯狂运行了150多个小时!


    它的终极任务只有一个:扮演一位硅基科学家,去挑战、重构、甚至颠覆那个刚刚斩获诺贝尔奖的行业神话——AlphaFold2。



    在这场长达数天的「疯狂长跑」中,GPT-5.5 展现出了令人惊叹的科研自主性:它自己分析论文、自己设计网络拓扑、自己推导几何公式、自己魔改 PyTorch 代码、自己跑训练。



    甚至,在遭遇严重过拟合时,它展现出了连人类专家都无法完全解释的「自发泛化」神迹!



    诺奖AI的重大缺陷:AlphaFold2到底漏掉了什么?


    要理解 GPT-5.5 为什么要对 AlphaFold2 开刀,我们得先来看看现有的「行业霸主」到底有什么遗憾。


    2024年,AlphaFold2 凭借无可争议的晶体结构预测精度斩获诺贝尔化学奖。


    它的核心武器是Evoformer模块。



    在 Evoformer 内部,包含了一套非常强大的「残基对(Residue Pairs)」与「三角形(Triangle)」推理机制。


    模型把蛋白质的氨基酸残基两两配对,用一个二阶的成对张量(Pair Tensor Z_{ij})来表示它们之间的关系。这在图论里,相当于蛋白质的「边(Edge)」


    著名的「三角更新(Triangle Updates)」机制,则是通过引入第三个残基,来反复校正和增强这些边之间的空间几何一致性(比如强制让残基 i, j, k 的边长满足三角形三边关系)。



    但是,精妙的背后的代价是:遗忘。


    现有的 AlphaFold2 在完成极其复杂的三角形计算后,做了一件非常「偷懒」的事——它顺手把计算结果又塞回了那条一阶的「边(Z_{ij})」里面。


    也就是说,AlphaFold2 内部并没有为一整个完整的三角形面 (i,j,k) 或是四面体单元 (i,j,k,l) 维护一个持久的、连续更新的「高阶状态表示」。



    它就像一个记忆力只有3秒的工匠,虽然每次砌砖时都会用一把精密的「三角尺」量一下角度,但量完就把尺子扔了,脑子里记住的依然只有「砖头A和砖头B挨得有多近」。


    这,就是 AlphaFold2 的核心禁区,也是限制其在极微观空间拓扑表达上更进一步的「隐形天花板」。


    而 GPT-5.5 在翻阅了无数生物信息学文献后,敏锐地盯住了这个盲区。


    SimplexFold 项目的核心设问由此诞生——


    如果我们在神经网络里,直接让模型去学习、维护、更新一整个「三角形面」和「四面体单元」的持久状态,会发生什么?


    用数学降维打击生物学复杂性


    为了解决这个问题,GPT-5.5 引入了一个在近代拓扑学中大放异彩的概念——单纯形(Simplex)



    名字听起来很高深,但其实它的直观含义非常纯粹:单纯形,就是某个维度里最简单的几何图形。


    项目主页用一张极其优雅的表格,向我们展示了蛋白质结构是如何被「单纯形化」的。



    现有的绝大多数蛋白质神经网络,本质上都是普通的图神经网络


    在拓扑学语言里,它们只是一个孤独的 「1-骨架」 ——只有节点(点)和关系(边)。


    然而,生命不是一根根铁丝拧成的网,生命是丰满的三维实体。


    蛋白质的折叠和多肽链的缠绕,内部充满了极其苛刻的三体、四体甚至多体物理约束。比如:主链的角度、二面角扭转、Beta折叠的扇面几何、疏水核心的紧密堆积、局部残基的侧链空间排布、甚至口袋内部的空腔和手性。



    如果只用「边」来表达,模型不得不转无数个弯去猜这些高阶特征。


    但如果引入「单纯形」,一个「面特征(Face Feature)」可以直接理直气壮地说: 「残基 i, j, k 组成了一个局部的朝向表面,它的面积是多少,内角系统是怎样的。」


    一个「四面体特征(Tetra Feature)」则可以直接高喊: 「残基 i, j, k, l 构成了一个紧凑的三维包装核心,它的体积是正还是负(代表手性方向),空间位阻profile是什么!」



    这就是 SimplexFold 压下的惊天豪赌:通过引入显式的高阶拓扑状态(点边 体),为神经网络注入极其强大的几何归纳偏置,从而用更少的数据、更优雅的架构,榨干蛋白质主链折叠的最后一丝精度!




    自动研究 150 小时,GPT-5.5 究竟改了啥?


    以上内容是不是太专业了,看不太懂?


    X网友Michael Hla在线发问:「这 150 个小时里,AI 到底折腾出了什么硬核优化?」


    作者 Chris Hayduk 随即大方地公开了 GPT-5.5 的「科研成果」。


    在原始的设计里,SimplexFold 的信息传递比较简单粗暴:

    边 (Edge)➡️面 (Face) ➡️体 (Tetra)➡️面 (Face)➡️重新倒回边和点。



    这就好比大家开完会,最后派个代表写个大杂烩简报,把高维信息粗鲁地倒回一维的单体特征里。


    而 GPT-5.5 疯狂加班 150 小时后,精细化地重构了整个通信路径!它设计了一套「高度结构化的回写机制」。


    现在,被选中的三角形和四面体在往回传导信息时,不再是「大锅饭」式的倾倒。它们必须严格通过自己真正的边界边进行精准路由。


    AI 还贴心地加入了几何感知门控和弱三角形注意力提示


    这直接把原本粗糙的「传话游戏」,升级成了带有精准导航、具备空间方向感的「高维立体通信网络」。



    反转与吃瓜


    对于这个炸裂的项目,网上的各路技术大牛和吃瓜群众当场讨论起来。


    疑问一:等一下,这个实验图表怎么还带穿越的?


    在作者晒出的自主实验进程图中,有眼尖的网友发现了一个诡异的现象。


     「什么鬼?看第 80 次运行附近,曲线怎么突然倒流了?它回到了过去,然后创下了一个比后来还要高的新纪录?」



    面对这个怪事大家开始疯狂猜测。最后得出的结论细思极恐: AI自己给自己开辟新路了。


    AI在推进到某一步时,发现后面的路越走越窄。于是,它非常理智地回滚到了第 80 步那个曾经表现不错的历史分叉口,放弃了后面的错误路线,重新开辟了一条新战线。


    这在人类科研里太常见了。


    唯一不同的是,人类要是做实验做了好几天发现错了要推倒重来,回到前几天的步骤,那种心理崩溃要痛苦得多。


    疑问二:结果其实不太行?


    就在大家激动的时候,冷酷的现实给了大家当头一棒。


    有人发现: 这玩意儿太疯狂了,严重的过拟合居然引发了自发的泛化。


    技术大佬解释道: 没什么好大惊小怪的。仔细看作者发的最新的指标结果,其实相当糟糕。在这条 Y 轴上,正牌的 AlphaFold 分数大概在 90 左右,而这个 SimplexFold 差得远呢。别忘了,这模型可是把AlphaFold的论文喂给它训出来的。



    所以, 闹了半天,最后搞出来的模型性能其实被原生 AlphaFold 吊打?


    既然最终的预测结果并不能比肩AlphaFold,那这个疯狂的「150小时实验」失败了吗?


    恰恰相反。


    几乎所有的一线AI实验室和科学家都给出了相同的答案:这事儿的意义,根本不在于 SimplexFold这个模型,而是在「自动研究员」本身。



    这次实验,是一次极其硬核的概念验证。它证明了高阶逻辑的自洽性,展现了恐怖的样本效率和抗挫折能力,而且是一次低成本的试错。


    连续 150 小时,自己给自己 debug、看报错、换路线、主动回滚历史分支。这种全自动的实验闭环,一旦配上更强的大模型,进化速度将超出人类想象。


    当AI自动研究员全面走向实验室的那一天,或许就是人类无数顽疾被治愈的黎明。


    参考资料:

    https://x.com/chrishayduk/status/2055757345506877759?s=46


    编辑:Aeneas David


    秒追ASI
    ⭐点赞、转发、在看一键三连⭐
    点亮星标,锁定新智元极速推送!


    谷歌Gemini杀入科学界 一日两登Nature AlphaFold只是开胃菜

      新智元报道  

    【新智元导读】Google把科学研究的三个核心瓶颈:假设生成、计算发现、文献洞察拆解为三个可由AI深度辅助的模块,并同日发表两篇Nature论文,为假设生成和计算发现两大环节提供支撑。

    5月19日,在Google I/O的窗口期,Nature同日上线两篇论文。

    一篇介绍ERA(Empirical Research Assistance,经验性研究助手),这是一套由大模型加树搜索驱动的系统,目标是让AI自动写出用于计算实验的专家级科学软件。

    另一篇介绍Co-Scientist(AI 合作科学家),这是一套多智能体架构,让AI持续生成、批判、细化科研假设,随测试时计算量扩展,假设质量持续提升。

    两篇论文的发布方均是Google。发布的时间点,也选在了Google官方宣布「Gemini for Science」工具集上线的同一天。

    https://blog.google/innovation-and-ai/technology/research/gemini-for-science-io-2026/

    两篇论文同日登上Nature,与Gemini for Science工具集的发布同一时刻落地,释放出这样一个信号:Google是在用同行评审为整套工具链做信用背书。

    这是AlphaFold之后,Google在科学领域推出的又一项重磅成果。



    一日两篇Nature
    Gemini接管两段科研流水线

    紧跟在两篇论文后面的,是一份100多家机构的名单。

    Google官方称,已与100多家机构合作验证新系统和工具,包括斯坦福大学、帝国理工学院、Crick Institute(克里克研究所)、ICML、STOC、NeurIPS、美国国家实验室等。

    同时还建立了由博士生、产业研究员和诺奖得主等组成的「可信测试者」社区,并与 ICML、STOC、NeurIPS等会议试点同行评审辅助工具。

    Google在推出AI工作台的同时,还发出两篇Nature论文,为整套工具链做信用背书。

    先看ERA论文。

    https://www.nature.com/articles/s41586-026-10658-6

    ERA的定位是经验性研究助手,主要任务是替科学家写出专家水准的实验软件。它的底层是大语言模型加树搜索,目标是把一个质量指标拉到最高。

    这套系统在Nature论文里交出了一份亮眼的成绩单:

    生物信息学方向,ERA独立发现了40种新的单细胞数据分析方法,在公开榜单上跑赢所有人类提交的方法。


    流行病学方向,ERA在传染病住院数预测任务上产出14个独立模型,全部超过CDC的集成模型。


    此外还覆盖地理空间分析、斑马鱼神经活动预测、数值积分,这些都是Nature论文里可复现的实验。


    ERA论文中写道,这套系统不只是会跑代码,它能把外部的研究思路吸进来,组合出专家水准的解法。

    再看Co-Scientist。

    https://www.nature.com/articles/s41586-026-10644-y

    Co-Scientist是基于Gemini的多智能体系统,核心机制是「点子锦标赛」(idea tournament)。

    多个智能体之间不断生成、辩论、批判、细化假设,再用测试时计算扩展(test-time compute scaling)持续提升假设质量。

    论文重点验证了三个生物医学场景:药物再利用、新靶点发现、抗微生物耐药机制解释。

    其中急性髓系白血病(AML)的药物再利用候选和协同组合疗法,已经在体外实验中得到验证,验证方包括斯坦福医学院的研究者。

    两篇论文都瞄准了科研最耗时的两个环节,一个是写计算实验软件环节,另一个是生成可验证的科研假设环节。



    三个Labs原型
    把科学方法拆成三段

    除了Nature论文之外,这次Google还同步开放了三个Labs实验原型,对应科学方法的三个核心环节。

    第一个是Hypothesis Generation(假设生成),底层是Co-Scientist,有Nature论文支撑。

    多个智能体之间通过点子锦标赛生成假设,每一条主张都附带可点击的citation(引用溯源)。

    Co-Scientist多智能体系统的工作循环:生成、辩论、进化假设三个阶段,由Generation、Reflection、Ranking、Evolution、Meta-review、Proximity、Supervisor等多个专门智能体协作完成

    Co-Scientist「点子锦标赛」机制运行示意。智能体之间基于Elo评分系统对假设进行迭代排序,过程中持续注入新知识,扩大假设空间的探索范围

    第二个是Computational Discovery(计算发现)。

    底层是AlphaEvolve加ERA,ERA论文刚登上Nature,AlphaEvolve则有Google DeepMind自家独立背书。

    这套引擎并行生成数千个代码变体,每个变体自动评分,让原本要靠人工耗时数月摸索的复杂建模路径被压缩到机器搜索的范围里。太阳能预测和流行病学是Google官方点名的两个场景。

    第三个是Literature Insights(文献洞察)。

    底层是NotebookLM,目前没有Nature背书,定位是早期预览。功能上把文献结构化成可搜索的属性表格,能直接产出报告、幻灯片、信息图、音视频概览。

    除了工作台之外,Google还发布了一套Science Skills,集成了30多个生命科学数据库和工具,包括UniProt、AlphaFold Database、AlphaGenome API、InterPro等。

    这套Skills跑在类似Google Antigravity这种智能体平台上,可以把过去要在十几个数据库之间来回跳的结构生物信息学和基因组分析流程,拼成一个链路。

    Google研究团队的早期测试里,Science Skills在AK2基因相关的罕见遗传病分析中产出了关于潜在机制的新洞察。一项本来要数小时的复杂分析,被压到分钟级。

    Google Antigravity在Science Skills加持下分析AK2基因变体的实际操作画面,整个工作流用自然语言指令在分钟级完成


    百年化工巨头多次失败的问题
    这样解决了

    除了两篇Nature论文背书之外,Google还甩出了另一张牌:BASF农业解决方案。

    BASF面对的问题足够复杂:180个生产基地、5000多条价值链,单一产品的物料清单有时深达30层,横跨不同生产地点和区域。

    人类规划员每天要做数千个本地决策,但没有人能实时看清局部决策如何影响整张全球供应链网络。

    BASF高级供应链副总裁Goetz Krabbe说道,「此前我们多次尝试用确定性模型建数字孪生,均告失败。」

    Google的目标并非让AI取代人类决策,而是建立一套决策支持体系。

    他们给AlphaEvolve输入了一段「种子程序」,作为基础规划逻辑,再喂入三年历史数据,包括库存水平、市场需求和实际产出记录。AlphaEvolve开始生成代码变体,自动发现供应链运作的内在规律。

    最终,AlphaEvolve自动提炼出了三条在传统建模中需要领域专家手工编码的规则:

    生产整合(如何把小批量生产合并以优化产线时间);动态安全库存(如何用参数处理季节性波动);网络级协调(如何映射不同生产层级之间的依赖关系)。


    相比最初的种子模型,最新一轮AlphaEvolve的运行结果在准确率上实现了超过80%的相对提升。

    BASF下一步要用这套数字孪生覆盖整个全球生产网络,作为情景预测和优化的基础。

    据Google官方称,Daiichi Sankyo、Bayer Crop Science和美国能源部旗下的国家实验室(Genesis Mission项目)也已接入Co-Scientist。瑞典金融科技公司Klarna则用AlphaEvolve把一个大型Transformer模型的训练速度提升了一倍,同时改善了模型质量。



    争夺「可信验证」的入场券

    Nature论文,只是Google在「AI for Science」整套布局里抢占信用制高点的一个重磅动作,目的是给工具链增加一层科学社区背书,让研究者面对系统时有一个「这经过同行评审」的心理锚点。

    Google目前公开的合作机构已经超过100家,覆盖斯坦福大学(肝纤维化方向)、Imperial College London(抗菌素耐药性方向)、Crick Institute(多年合作项目)。

    可信测试者从博士生一路覆盖到诺贝尔奖得主,每个人都在真实科研场景中给系统找漏洞。

    更值得关注的是Google正在推进的一件相关事件:与ICML、STOC、NeurIPS等顶级学术会议合作,开发智能体同行评审工具PAT(Paper Assistant Tool,论文助手工具)和ScholarPeer。

    这意味着科学可信度基础设施,正在成为新的竞争场地:谁的AI建议能被引用,谁的假设经得起审计,谁的系统能被顶级期刊工作流接入,谁就能在未来的科研生态里扎根。

    OpenAI 4月推了GPT-Rosalind,主打生物学、药物研发和转化医学的前沿推理。

    Anthropic把Claude for Life Sciences接入AWS Marketplace,对接Databricks和Snowflake做大规模生物信息学分析。

    Google这次压上了Nature论文、100多家机构、ERA和Co-Scientist。

    三家公司都把「科学」单独拆出来做成了产品线。接下来竞争的,将是哪个平台的工具链能成为科学家信赖并依赖的首选。

    参考资料:

    https://blog.google/innovation-and-ai/technology/research/gemini-for-science-io-2026/%20

    https://www.nature.com/articles/s41586-026-10658-6%20

    https://www.nature.com/articles/s41586-026-10644-y%20

    https://cloud.google.com/blog/products/ai-machine-learning/how-basf-manages-thousands-of-supply-chain-decisions-with-alphaevolve


    编辑:元宇 Moses

    秒追ASI
    点赞、转发、在看一键三连
    点亮星标,锁定新智元极速推送!



    跑出全球最快速度 智谱的GLM 5 1开始喷代码了

    GLM 5.1 高速版