Anthropic 说 Opus 4.8 来了,额度刷新了,但我一直在想那个没开放的 Mythos

Anthropic 凌晨发布 Opus 4.8。

很多人第一反应不是去看发布公告,而是发现 —— Claude 的额度重置了。

这周额度早就见底的人,4.8 一来直接原地复活。

我理解这个感受。但我看完发布公告,脑子里一直转的是另一件事。

是 Mythos。

先说 Opus 4.8

先把 Opus 4.8 说清楚。

Anthropic 自己的定性是"modest but tangible improvement"——适度但可感知的提升。这个措辞我觉得挺诚实的,没有过度吹。

1. 代码能力真第一吗?

SWE-Bench Pro(agentic coding 基准):Opus 4.8 拿到 69.2% ,Opus 4.7 是 64.3%,GPT-5.5 是 58.6%,Gemini 3.1 Pro 是 54.2%。差距不小,代码这块是 Anthropic 现在最硬的护城河。

但有一个地方输了:Terminal-Bench 2.1,也就是终端编程任务,GPT-5.5 是 78.2%,Opus 4.8 是 74.6%。差距不大,但确实输了。如果你主要用终端操作,GPT-5.5 在这块还有一战之力。

不过仔细看的话,根据官方给的注释,GPT-5.5的实际得分应该是远大于Opus 4.8,只不过是为了拉低他的评分,从而让他到一个新的考场。

而且现在也很少人用网页去写代码了吧,基本上都是终端这些来搞定的,所以嗯~还是等5.0吧,应该会一个更大提升。

2. 诚实这件事,比 benchmark 更重要

这次 Anthropic 重点强调了一个不太容易量化的改进:Opus 4.8 更诚实了。

具体说:它在自己写的代码里,让错误"悄悄过去"的情况减少了 4 倍。更愿意承认不确定性,更少为了凑个答案而硬编,对自己干到哪一步也能做出更真实的判断。

这件事的重要性,得换个角度说才说得清楚。

AI 写出有 bug 的代码,这不是新鲜事。真正的危险是:它没有验证、没有把握,却用一种稳健自信的语气告诉你"这段代码没问题"——仿佛一切都完美运行过一遍。你信了,上线了,然后出事了。

所以 Opus 4.8 的改变,不是"它写的代码更少出错了",而是"它更清楚自己什么时候不确定了"。这两件事差别很大。

幻觉率方面,第三方评测机构 Artificial Analysis的数据是 35.9%,和 Opus 4.7 基本持平。这个数字不算好看,但也没有变差。

3. 新增Dynamic Workflows

这次跟 Opus 4.8 一起放出来的,是 Claude Code 的新功能 Dynamic Workflows,目前是研究预览。

你给它一个大任务,它自己拆解,一次性派出几十到几百个并行 subagent 去干。干完之后,会让另一批 agent 去验证——甚至专门派 agent 去挑刺、反驳,反复迭代到结果收敛,最后给你一个整合好的答案。整个过程能跑几小时甚至几天,中途断了还能接着跑。

Anthropic 拿 Bun 的案例做宣传:创始人 Jarred Sumner 用 Dynamic Workflows 把整个项目从 Zig 移植到 Rust,写了约 75 万行 Rust 代码,通过了 99.8% 的原有测试,从第一次提交到合并只花了 11 天

适合的场景:整个代码仓库的 bug 排查、安全审计、大规模迁移(框架升级、API 替换、跨语言移植,一次涉及上千个文件那种)。

但 Anthropic 罕见地主动警告:这个功能很烧 token,建议先拿小任务试水。第一次触发时,Claude Code 会先把要跑的东西摆给你看、让你确认。

目前 Max、Team 套餐和 API 用户默认开启,Enterprise 默认关闭。开启方式:直接让 Claude “建个 workflow”,或者打开 ultracode 开关(/effort ultracode)。

4. Effort Controls:你来决定它用多少脑子

这次还有一个容易被忽略的功能:Effort Controls。

用户现在可以控制 Claude 在一个任务上投入多少"努力",从 Low 到 Max 可调。逻辑很直接——不是所有任务都需要最高智力。你问一个简单问题,没必要让模型深度思考 30 秒;你做一个复杂的代码审查,才需要它全力以赴。以前这个是模型自己决定的,现在交给你控制。

5. Fast Mode:速度快了,但 API 用户要排队

Fast Mode 现在跑到 2.5 倍速度,价格是原来的三分之一。在 Claude Code 里用 /fast 打开就行。

但 API 用户有个坑:Fast Mode 目前需要联系客户经理申请,或者排队等待,不是直接开放的。

标准版价格没涨,还是 $5 / $25 per million tokens,和 Opus 4.7 一样。

6. 效率这块有个有意思的数据

Opus 4.8 完成同样任务,比 Opus 4.7 少用 15% 的 turns,少输出 35% 的 tokens。

但有一个对比数字值得注意:Opus 4.8 完成任务还是比 GPT-5.5 多用大约 30% 的 turns。也就是说,Opus 4.8 在代码质量上赢了 GPT-5.5,但在"用多少步完成任务"这件事上,GPT-5.5 更高效。如果你的场景对 API 调用次数敏感,这个差距是真实存在的。

现在说 Mythos

Mythos 是 4 月 7 号宣布的,比 Opus 4.8 早了将近两个月。

Anthropic 没有走正常的产品发布流程,而是在安全研究子域名上发了公告,同时宣布了一个叫 Project Glasswing 的计划:Mythos 不对公众开放,只给约 50 家经过审查的机构使用——Amazon、Apple、Microsoft、Google、JPMorgan 这些。

为什么不开放?因为它太擅长找漏洞了。

SWE-bench Verified 93.9%,Cybench 满分,CyberGym 83.1%。拿 Firefox 的 JS 引擎漏洞测试,Mythos 生成可用攻击代码的成功率是 84%,Opus 4.6 是 15.2%。同一家公司的两个模型,差了将近 6 倍。

Project Glasswing 运行一个月,找到了超过 10,000 个高危或严重级别的漏洞。发现的漏洞按惯例保密 90 天——也就是说,现在已经有一批漏洞被找到了,但你还不知道是什么。

关于什么时候对公众开放,Anthropic 的回答是:也许 12 个月后。然后他们补了一句:包括我们自己在内,目前没有任何公司建立了足够强的防护措施。

这句话是 Anthropic 自己说的。

而 Anthropic 也将在未来几周内向公众发布 Mythos 这一事实,之后可能会削弱掉这部分的漏洞攻击功能。

最后有话说

所以 Opus 4.8 是什么?

我觉得它是 Anthropic 公开产品线上一次扎实的迭代。代码更强,更诚实,Fast Mode 更快更便宜,Dynamic Workflows 给大型工程任务开了一扇新门。如果没有 Mythos,这会是一次很好的发布。

但有了 Mythos 这个背景,Opus 4.8 看起来更像是——Anthropic 在公开产品线上能给你的东西,而他们真正在做的那个更激进的东西,还在另一条线上跑着。

额度刷新了,这是真的。

Mythos 还没开放,这也是真的。

往期文章👇

GPT Plus升级失败?没有虚拟卡、海外信用卡怎么办?全新技术实现24小时自助直充升级GPT

AI完成任务太耗时?想要摸鱼却又怕耽误时间,于是我做了个AI任务完成提醒器

教你在国内用一个套餐同时体验到Claude Code+Codex两大AI编程助手


最后感谢大家能够看到文章的最后,如果你觉得这篇文章对你有启发或者帮助,不妨点个关注,你的支持将是我最大的动力,我们下次见!