Claude Mythos 泄露事件全拆解：比 Opus 4.6 强多少，为什么让政府紧张

这次泄露是怎么发生的：一个 CMS 配置错误引发的连锁反应

3 月 26 日，剑桥大学研究员 Alexandre Pauwels 和 LayerX Security 的 Roy Paz 在例行安全扫描中发现，Anthropic 的内容管理系统（CMS）存在一个公开可索引的数据缓存。这个缓存里有约 3000 份文件，包括内部草稿、图片资产、CEO 活动信息，以及一篇尚未发布的博客文章——正是这篇博客，让"Mythos"这个名字第一次出现在公众视野里。

更戏剧性的是，这还不是结束。3 月 31 日，Fortune 报道了第二次安全事故：Anthropic 自家 AI 编程工具 Claude Code 的部分源代码也意外泄露。两次事故相隔不到一周，让外界对 Anthropic 的内部安全管理产生了严重质疑。

Anthropic 随后确认了 Mythos 的存在，并表示泄露的文件已被清除。但信息已经传播出去了。

Claude Mythos 到底是什么：泄露文件里说了什么

根据泄露的草稿博客，Mythos 被 Anthropic 内部定位为"超越 Opus 的阶跃式提升"（a step change beyond Opus）。这个措辞在 AI 公司的内部文件里并不常见——通常他们会用"改进"或"增强"，而不是"阶跃"。

目前已知的信息：

能力定位：在推理、代码生成和长任务执行上全面超越 Claude Opus 4.6
安全分级：Anthropic 内部将其列为需要特殊安全审查的模型，目前仅向网络安全合作伙伴开放早期访问
网络攻击能力：这是最敏感的部分——Anthropic 私下向美国政府官员警告，Mythos 在辅助网络攻击方面的能力"前所未有"（unprecedented），可能大幅降低发动大规模网络攻击的门槛

值得注意的是，"前所未有"这个词是 Anthropic 自己用的，不是媒体的渲染。这意味着他们在内部已经做过评估，认为这个模型的能力确实跨越了某条线。

为什么网络攻击能力是核心争议点

理解这个问题，需要先理解 AI 模型在网络攻击中能扮演什么角色。

传统的网络攻击需要高度专业化的技能：漏洞挖掘、利用代码编写、横向移动策略……这些技能的学习曲线很陡，限制了攻击者的数量。但一个足够强大的 AI 模型可以把这个门槛大幅压低——它可以帮助攻击者快速理解目标系统、生成定制化的攻击代码、甚至自动化整个攻击链。

Axios 的报道指出，Anthropic 私下告知政府官员的核心担忧是：Mythos 在"辅助网络攻击规划和执行"方面的能力，比现有任何公开模型都要强得多。这不是说 Mythos 会主动发起攻击，而是说它能让一个技术水平普通的人，做到以前只有顶级黑客才能做到的事。

⚠️

重要背景 Anthropic 是目前 AI 安全领域最保守的大公司之一。他们愿意主动向政府披露这个风险，本身就说明他们认为这个问题足够严重，需要提前预警。

Mythos vs Opus 4.6：能力差距有多大

由于 Mythos 尚未公开发布，我们没有官方 benchmark 数据。但可以从已知信息推断：

Claude Opus 4.6（2026 年 2 月发布）目前的公开数据是：GDPval-AA 知识工作评分 1606 Elo，Terminal-Bench 2.0 代码任务完成率领先所有公开模型，支持 100 万 token 上下文窗口，最长任务执行时间 14.5 小时。

泄露文件将 Mythos 描述为"阶跃式提升"，而不是"渐进式改进"。在 AI 模型的发展语境里，"阶跃"通常意味着在某些关键能力上出现了质的变化，而不只是量的积累。

我认为，Mythos 最可能的突破方向是长时间自主任务执行——也就是在没有人类干预的情况下，完成跨越数小时甚至数天的复杂任务链。这正是网络攻击场景最需要的能力，也是 Anthropic 最担心的方向。

这次事件暴露了什么更深层的问题

表面上，这是一次 CMS 配置错误。但它暴露的问题远不止于此。

第一，AI 公司的内部安全管理跟不上模型能力的增长速度。 Anthropic 是业内最重视安全的公司，但他们在一周内发生了两次数据泄露。如果连他们都如此，其他公司的情况可想而知。

第二，"负责任披露"的边界越来越模糊。 Anthropic 选择向政府私下预警，而不是公开发布安全报告。这个决策本身没有问题，但它意味着公众对这类高风险模型的了解，完全依赖于意外泄露——这不是一个健康的信息生态。

第三，模型能力和安全评估之间的时间差正在缩短。 以前，一个模型从训练完成到公开发布，中间有足够的时间做安全评估。但随着模型迭代速度加快，这个窗口期越来越短。Mythos 的存在说明，Anthropic 已经在内部训练出了他们自己都觉得需要谨慎对待的模型。

Mythos 什么时候会发布

目前没有官方时间表。Anthropic 的表态是：Mythos 正在进行"扩展的安全评估"，目前仅向网络安全合作伙伴开放早期访问。

从历史规律来看，Anthropic 的模型从内部完成到公开发布，通常需要 3-6 个月的安全评估期。如果 Mythos 在 2026 年初就已经训练完成，那么最早可能在 2026 年中期看到公开版本——但这完全取决于安全评估的结果。

也存在另一种可能：如果安全评估发现风险过高，Anthropic 可能选择不公开发布，或者只向特定机构提供访问权限。这在 AI 行业里还没有先例，但 Mythos 可能会成为第一个。

我的判断：这件事的真正意义

Claude Mythos 泄露事件，本质上是 AI 能力发展和安全治理之间矛盾的一次公开化。

我们正在进入一个新阶段：AI 模型的能力已经强到，连开发它的公司都需要主动向政府预警潜在风险。这不是科幻小说里的场景，这是 2026 年 3 月正在发生的事。

对于普通用户来说，Mythos 短期内不会影响你的日常使用。但它提醒我们：AI 能力的边界正在以我们难以追踪的速度扩展，而监管框架和安全机制的建立，远比模型训练慢得多。

这个时间差，才是真正值得关注的风险。