这次泄露是怎么发生的:一个 CMS 配置错误引发的连锁反应
3 月 26 日,剑桥大学研究员 Alexandre Pauwels 和 LayerX Security 的 Roy Paz 在例行安全扫描中发现,Anthropic 的内容管理系统(CMS)存在一个公开可索引的数据缓存。这个缓存里有约 3000 份文件,包括内部草稿、图片资产、CEO 活动信息,以及一篇尚未发布的博客文章——正是这篇博客,让"Mythos"这个名字第一次出现在公众视野里。
更戏剧性的是,这还不是结束。3 月 31 日,Fortune 报道了第二次安全事故:Anthropic 自家 AI 编程工具 Claude Code 的部分源代码也意外泄露。两次事故相隔不到一周,让外界对 Anthropic 的内部安全管理产生了严重质疑。
Anthropic 随后确认了 Mythos 的存在,并表示泄露的文件已被清除。但信息已经传播出去了。
Claude Mythos 到底是什么:泄露文件里说了什么
根据泄露的草稿博客,Mythos 被 Anthropic 内部定位为"超越 Opus 的阶跃式提升"(a step change beyond Opus)。这个措辞在 AI 公司的内部文件里并不常见——通常他们会用"改进"或"增强",而不是"阶跃"。
目前已知的信息:
- 能力定位:在推理、代码生成和长任务执行上全面超越 Claude Opus 4.6
- 安全分级:Anthropic 内部将其列为需要特殊安全审查的模型,目前仅向网络安全合作伙伴开放早期访问
- 网络攻击能力:这是最敏感的部分——Anthropic 私下向美国政府官员警告,Mythos 在辅助网络攻击方面的能力"前所未有"(unprecedented),可能大幅降低发动大规模网络攻击的门槛
值得注意的是,"前所未有"这个词是 Anthropic 自己用的,不是媒体的渲染。这意味着他们在内部已经做过评估,认为这个模型的能力确实跨越了某条线。
为什么网络攻击能力是核心争议点
理解这个问题,需要先理解 AI 模型在网络攻击中能扮演什么角色。
传统的网络攻击需要高度专业化的技能:漏洞挖掘、利用代码编写、横向移动策略……这些技能的学习曲线很陡,限制了攻击者的数量。但一个足够强大的 AI 模型可以把这个门槛大幅压低——它可以帮助攻击者快速理解目标系统、生成定制化的攻击代码、甚至自动化整个攻击链。
Axios 的报道指出,Anthropic 私下告知政府官员的核心担忧是:Mythos 在"辅助网络攻击规划和执行"方面的能力,比现有任何公开模型都要强得多。这不是说 Mythos 会主动发起攻击,而是说它能让一个技术水平普通的人,做到以前只有顶级黑客才能做到的事。
Mythos vs Opus 4.6:能力差距有多大
由于 Mythos 尚未公开发布,我们没有官方 benchmark 数据。但可以从已知信息推断:
Claude Opus 4.6(2026 年 2 月发布)目前的公开数据是:GDPval-AA 知识工作评分 1606 Elo,Terminal-Bench 2.0 代码任务完成率领先所有公开模型,支持 100 万 token 上下文窗口,最长任务执行时间 14.5 小时。
泄露文件将 Mythos 描述为"阶跃式提升",而不是"渐进式改进"。在 AI 模型的发展语境里,"阶跃"通常意味着在某些关键能力上出现了质的变化,而不只是量的积累。
我认为,Mythos 最可能的突破方向是长时间自主任务执行——也就是在没有人类干预的情况下,完成跨越数小时甚至数天的复杂任务链。这正是网络攻击场景最需要的能力,也是 Anthropic 最担心的方向。
这次事件暴露了什么更深层的问题
表面上,这是一次 CMS 配置错误。但它暴露的问题远不止于此。
第一,AI 公司的内部安全管理跟不上模型能力的增长速度。 Anthropic 是业内最重视安全的公司,但他们在一周内发生了两次数据泄露。如果连他们都如此,其他公司的情况可想而知。
第二,"负责任披露"的边界越来越模糊。 Anthropic 选择向政府私下预警,而不是公开发布安全报告。这个决策本身没有问题,但它意味着公众对这类高风险模型的了解,完全依赖于意外泄露——这不是一个健康的信息生态。
第三,模型能力和安全评估之间的时间差正在缩短。 以前,一个模型从训练完成到公开发布,中间有足够的时间做安全评估。但随着模型迭代速度加快,这个窗口期越来越短。Mythos 的存在说明,Anthropic 已经在内部训练出了他们自己都觉得需要谨慎对待的模型。
Mythos 什么时候会发布
目前没有官方时间表。Anthropic 的表态是:Mythos 正在进行"扩展的安全评估",目前仅向网络安全合作伙伴开放早期访问。
从历史规律来看,Anthropic 的模型从内部完成到公开发布,通常需要 3-6 个月的安全评估期。如果 Mythos 在 2026 年初就已经训练完成,那么最早可能在 2026 年中期看到公开版本——但这完全取决于安全评估的结果。
也存在另一种可能:如果安全评估发现风险过高,Anthropic 可能选择不公开发布,或者只向特定机构提供访问权限。这在 AI 行业里还没有先例,但 Mythos 可能会成为第一个。
我的判断:这件事的真正意义
Claude Mythos 泄露事件,本质上是 AI 能力发展和安全治理之间矛盾的一次公开化。
我们正在进入一个新阶段:AI 模型的能力已经强到,连开发它的公司都需要主动向政府预警潜在风险。这不是科幻小说里的场景,这是 2026 年 3 月正在发生的事。
对于普通用户来说,Mythos 短期内不会影响你的日常使用。但它提醒我们:AI 能力的边界正在以我们难以追踪的速度扩展,而监管框架和安全机制的建立,远比模型训练慢得多。
这个时间差,才是真正值得关注的风险。