Anthropic 说 Opus 4.8 来了，额度刷新了，但我一直在想那个没开放的 Mythos

Anthropic 凌晨发布 Opus 4.8。

很多人第一反应不是去看发布公告，而是发现 —— Claude 的额度重置了。

这周额度早就见底的人，4.8 一来直接原地复活。

我理解这个感受。但我看完发布公告，脑子里一直转的是另一件事。

是 Mythos。

先说 Opus 4.8

先把 Opus 4.8 说清楚。

Anthropic 自己的定性是"modest but tangible improvement"——适度但可感知的提升。这个措辞我觉得挺诚实的，没有过度吹。

1. 代码能力真第一吗？

SWE-Bench Pro（agentic coding 基准）：Opus 4.8 拿到 69.2% ，Opus 4.7 是 64.3%，GPT-5.5 是 58.6%，Gemini 3.1 Pro 是 54.2%。差距不小，代码这块是 Anthropic 现在最硬的护城河。

但有一个地方输了：Terminal-Bench 2.1，也就是终端编程任务，GPT-5.5 是 78.2%，Opus 4.8 是 74.6%。差距不大，但确实输了。如果你主要用终端操作，GPT-5.5 在这块还有一战之力。

不过仔细看的话，根据官方给的注释，GPT-5.5的实际得分应该是远大于Opus 4.8，只不过是为了拉低他的评分，从而让他到一个新的考场。

而且现在也很少人用网页去写代码了吧，基本上都是终端这些来搞定的，所以嗯~还是等5.0吧，应该会一个更大提升。

2. 诚实这件事，比 benchmark 更重要

这次 Anthropic 重点强调了一个不太容易量化的改进：Opus 4.8 更诚实了。

具体说：它在自己写的代码里，让错误"悄悄过去"的情况减少了 4 倍。更愿意承认不确定性，更少为了凑个答案而硬编，对自己干到哪一步也能做出更真实的判断。

这件事的重要性，得换个角度说才说得清楚。

AI 写出有 bug 的代码，这不是新鲜事。真正的危险是：它没有验证、没有把握，却用一种稳健自信的语气告诉你"这段代码没问题"——仿佛一切都完美运行过一遍。你信了，上线了，然后出事了。

所以 Opus 4.8 的改变，不是"它写的代码更少出错了"，而是"它更清楚自己什么时候不确定了"。这两件事差别很大。

幻觉率方面，第三方评测机构 Artificial Analysis的数据是 35.9%，和 Opus 4.7 基本持平。这个数字不算好看，但也没有变差。

3. 新增Dynamic Workflows

这次跟 Opus 4.8 一起放出来的，是 Claude Code 的新功能 Dynamic Workflows，目前是研究预览。

你给它一个大任务，它自己拆解，一次性派出几十到几百个并行 subagent 去干。干完之后，会让另一批 agent 去验证——甚至专门派 agent 去挑刺、反驳，反复迭代到结果收敛，最后给你一个整合好的答案。整个过程能跑几小时甚至几天，中途断了还能接着跑。

Anthropic 拿 Bun 的案例做宣传：创始人 Jarred Sumner 用 Dynamic Workflows 把整个项目从 Zig 移植到 Rust，写了约 75 万行 Rust 代码，通过了 99.8% 的原有测试，从第一次提交到合并只花了 11 天。

适合的场景：整个代码仓库的 bug 排查、安全审计、大规模迁移（框架升级、API 替换、跨语言移植，一次涉及上千个文件那种）。

但 Anthropic 罕见地主动警告：这个功能很烧 token，建议先拿小任务试水。第一次触发时，Claude Code 会先把要跑的东西摆给你看、让你确认。

目前 Max、Team 套餐和 API 用户默认开启，Enterprise 默认关闭。开启方式：直接让 Claude “建个 workflow”，或者打开 ultracode 开关（/effort ultracode）。

4. Effort Controls：你来决定它用多少脑子

这次还有一个容易被忽略的功能：Effort Controls。

用户现在可以控制 Claude 在一个任务上投入多少"努力"，从 Low 到 Max 可调。逻辑很直接——不是所有任务都需要最高智力。你问一个简单问题，没必要让模型深度思考 30 秒；你做一个复杂的代码审查，才需要它全力以赴。以前这个是模型自己决定的，现在交给你控制。

5. Fast Mode：速度快了，但 API 用户要排队

Fast Mode 现在跑到 2.5 倍速度，价格是原来的三分之一。在 Claude Code 里用 /fast 打开就行。

但 API 用户有个坑：Fast Mode 目前需要联系客户经理申请，或者排队等待，不是直接开放的。

标准版价格没涨，还是 $5 / $25 per million tokens，和 Opus 4.7 一样。

6. 效率这块有个有意思的数据

Opus 4.8 完成同样任务，比 Opus 4.7 少用 15% 的 turns，少输出 35% 的 tokens。

但有一个对比数字值得注意：Opus 4.8 完成任务还是比 GPT-5.5 多用大约 30% 的 turns。也就是说，Opus 4.8 在代码质量上赢了 GPT-5.5，但在"用多少步完成任务"这件事上，GPT-5.5 更高效。如果你的场景对 API 调用次数敏感，这个差距是真实存在的。

现在说 Mythos

Mythos 是 4 月 7 号宣布的，比 Opus 4.8 早了将近两个月。

Anthropic 没有走正常的产品发布流程，而是在安全研究子域名上发了公告，同时宣布了一个叫 Project Glasswing 的计划：Mythos 不对公众开放，只给约 50 家经过审查的机构使用——Amazon、Apple、Microsoft、Google、JPMorgan 这些。

为什么不开放？因为它太擅长找漏洞了。

SWE-bench Verified 93.9%，Cybench 满分，CyberGym 83.1%。拿 Firefox 的 JS 引擎漏洞测试，Mythos 生成可用攻击代码的成功率是 84%，Opus 4.6 是 15.2%。同一家公司的两个模型，差了将近 6 倍。

Project Glasswing 运行一个月，找到了超过 10,000 个高危或严重级别的漏洞。发现的漏洞按惯例保密 90 天——也就是说，现在已经有一批漏洞被找到了，但你还不知道是什么。

关于什么时候对公众开放，Anthropic 的回答是：也许 12 个月后。然后他们补了一句：包括我们自己在内，目前没有任何公司建立了足够强的防护措施。

这句话是 Anthropic 自己说的。

而 Anthropic 也将在未来几周内向公众发布 Mythos 这一事实，之后可能会削弱掉这部分的漏洞攻击功能。

最后有话说

所以 Opus 4.8 是什么？

我觉得它是 Anthropic 公开产品线上一次扎实的迭代。代码更强，更诚实，Fast Mode 更快更便宜，Dynamic Workflows 给大型工程任务开了一扇新门。如果没有 Mythos，这会是一次很好的发布。

但有了 Mythos 这个背景，Opus 4.8 看起来更像是——Anthropic 在公开产品线上能给你的东西，而他们真正在做的那个更激进的东西，还在另一条线上跑着。

额度刷新了，这是真的。

Mythos 还没开放，这也是真的。

往期文章👇

GPT Plus升级失败？没有虚拟卡、海外信用卡怎么办？全新技术实现24小时自助直充升级GPT

AI完成任务太耗时？想要摸鱼却又怕耽误时间，于是我做了个AI任务完成提醒器

教你在国内用一个套餐同时体验到Claude Code+Codex两大AI编程助手

最后感谢大家能够看到文章的最后，如果你觉得这篇文章对你有启发或者帮助，不妨点个关注，你的支持将是我最大的动力，我们下次见！