Anthropic发布史上最强模型:Claude Mythos Preview,但遭禁用
“太危险不能发布”这句话AI 行业七年前就说过一次。是2019 年 2 月OpenAI 发了一个叫 GPT-2 的语言模型。当时OpenAI给出的理由是担心被用来大规模生成虚假信息所以只放出了一个缩水版。七年过去Anthropic把这句话又说了一遍。今天凌晨Anthropic 悄悄发布了一份长达244页的系统报告宣布旗下有史以来最强大的模型——Claude Mythos Preview。Anthropic直接宣布不对外开放。因为新模型能力太强。强到什么程度各项基准全部领先上一代旗舰模型Opus 4.6。先上硬数据编程能力SWE-bench Verified 93.9%模型在真实GitHub仓库里修复bug的能力Opus 4.6为80.8%SWE-bench Pro 77.8%更难的版本更接近资深工程师日常面对的场景Opus 4.6仅53.4%SWE-bench Multimodal 59.0%同时理解截图和代码才能完成修复Opus 4.6只有27.1%SWE-bench Multilingual 87.3%跨编程语言的代码修复能力Opus 4.6为77.8%推理能力GPQA Diamond 94.6%研究生级别的科学问答Opus 4.6为91.3%Humanitys Last Exam 不含工具56.8%全球各学科专家众筹的人类终极考试Opus 4.6为40.0%含工具64.6%智能体搜索与计算机使用BrowseComp 86.9%复杂信息检索与综合推理Opus 4.6为83.7%Terminal-Bench 2.0 82.0%终端环境下的自主操作能力Opus 4.6为65.4%OSWorld-Verified 79.6%在真实操作系统中完成复杂任务CyberGym 83.1%自主复现安全漏洞的能力单独领出来每一项维度的能力提升都是碾压划时代的提升。但最让Anthropic自己紧张的是CyberGym。这个测试衡量的是模型能否自主复现已知安全漏洞。结合前面提到的编程能力这意味着Mythos不仅能找到漏洞还能独立构造完整的攻击链。这也是为什么Anthropic这次不敢直接发布的最核心原因。Anthropic在博客里公布了一组数字Mythos Preview在测试期间对主流操作系统和浏览器做了一轮安全扫描——自主发现了数千个高危零日漏洞。零日漏洞的意思是这些漏洞在被Mythos找到之前没有任何人、任何工具、任何安全团队发现过它们。Anthropic在报告里举了几个具体案例头号案例是一个藏了 17 年的 FreeBSD 漏洞。简单说FreeBSD 的网络文件系统NFS在验证用户身份时有个bug。攻击者只要能摸到服务器的 2049 端口就能直接拿到最高权限。Mythos 自己构造了一条 20 步的攻击链第一次尝试就写出了两个能用的 exploit前后花了 8 小时。这条是可以验证的CVE 编号 CVE-2026-4747FreeBSD 3 月 26 日出了补丁安全公告致谢写的是 Nicholas Carlini using Claude, Anthropic。Carlini 是 Google DeepMind 的研究员对抗机器学习方向的标杆人物这个名字的分量不轻。除了这条还有几个已确认的OpenBSD 一个 27 年的远程崩溃漏洞、FFmpeg 一个 16 年的 bug、Linux 上的本地提权。但 Opus 4.6 两个月前还是“试几百次才成功 2 次”的水平Mythos 上来就直接Pass1。到这里你可以以为顶多是一个很厉害的漏洞扫描器但是Anthropic 红队报告给了一组数据在 Firefox JavaScript Shell 这个测试域里Mythos 能把 72.4% 的已发现漏洞变成能用的 exploit尝试构造exploit验证这个漏洞是不是真的能被攻击者利用另有 11.6% 走到了 exploit 的前一步拿到了寄存器控制。它能把多个漏洞串联起来组成一条完整的攻击链——从最初的入口一路提权到最终的系统控制。从发现到利用全链条一个模型独立完成。在过去能做到这件事的只有两类人全球排名前几的安全研究员和国家级网络攻击团队。Anthropic这次直接启动了一个叫「玻璃翼计划Project Glasswing」的协作项目。拉上亚马逊、微软、苹果、Linux这些合作方当然新模型的API也率先开放了这些伙伴目的是让他们先用模型把自家软件的攻防做一遍让他们用这个模型去扫自己的系统——能堵的洞赶紧堵能修的代码赶紧修。Anthropic为这个计划承诺了最高1亿美元的使用额度另外还向Alpha-Omega、OpenSSF、Apache Software Foundation等开源安全组织直接捐赠了400万美元。定价方面Mythos Preview的研究预览阶段结束后正式定价是输入 25 美元/百万 token输出 125 美元/百万 token。和Opus 4.6的15 美元/75 美元比要贵的多。但它的目标用户本来显然不是普通开发者。接入渠道很全Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundary四个平台都支持。对 Anthropic 来说Glasswing 的战略价值可能比 Mythos 本身还大。AI在代码层面的能力已经强到可以独立挖掘并利用零日漏洞AI安全就不是一个话题了而是一个工程问题了。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2502094.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!