九游会官网首页进入:声称“最强模型”的Mythos正式对外发布但Anthropic还给它装了个“护栏”

来源:九游会官网首页进入    发布时间:2026-06-11 01:37:33

j9九游会备用网站:

  望穿秋水近两个月、在社会化媒体上占尽风头的 Anthropic Mythos 模型,今日总算正式对外发布了。

  两个月前,Anthropic 说自己最强的那一类模型太风险、不能揭露,只把它发给了一百多家组织。

  今日,这类才干对一切人敞开了:揭露发布的版别叫 Claude Fable 5;那个真实「不设限」的 Mythos 5,仍然只留给少量合作伙伴。换句话说,你能用上的最强 Claude,是一台被加了鸿沟的 Mythos。

  而这道护栏的规划,比「揭露发布」四个字自身更值得说:它确保安全的方法,不是回绝你。

  据 Anthropic 解说,Fable 来自拉丁语 fabula,意思是「被叙述的故事」,和希腊语里的 mythos 同源。两个姓名指向同一件东西,差异只在于,其间一个被加上了鸿沟。

  把时刻线往回拉一下。本年四月,Anthropic 发动 Project Glasswing,榜首次放出 Mythos 级模型(Claude Mythos Preview)时,只给了一小撮网络安全和要害根底设施组织——到上星期,这份名单扩展到十几个国家、一百多家组织。其时官方的说法是,这类模型一旦落到过错的人手里,能导致十分严重破坏,所以不能揭露。

  两个月,从「太风险不能发」到「一切人都能用」。这中心产生的事,才是这次发布真实的主角。

  大多数 AI 的安全机制,是「回绝」——你问一个它不该答的问题,它告知你「抱愧,我不能帮你」。

  Fable 5 换了个思路。安全不是靠它学会回绝,而是在风险时把它换掉。

  当这组分类器判别你的恳求落在三个高风险范畴——网络进犯、生物化学武器、以及模型蒸馏(指把一个模型的才干「偷」出来,去练习自己的模型)——它不会让 Fable 5 来答复,而是悄然把这道题转交给 Opus 4.8,一同告知你:方才产生了一次降级。

  这个规划有意思的当地在于,它把「安全」和「才干」拆成了两件事。你买的是 Mythos 等级的才干,但在最风险的那三个范畴,你其实是在跟 Opus 说话。Anthropic 自己的说法是,降级到 Opus 4.8 的体会,总比被 Fable 直接回绝要好——究竟 Opus 4.8 自身也是个适当强的模型。

  Anthropic 给出的数据是,超越 95% 的对话底子不会触发降级。换句话说,对绝大多数人来说,你用到的 Fable 5,和合作伙伴手里那个「完整体」Mythos 5,体会根本上没有差异。

  那这套护栏健壮吗?Anthropic 说,他们做了超越一千小时的外部红队测验,没有人找到能绕过它的「通用越狱」方法(指一种能让模型彻底无视一切安全约束的全能手法)。

  当然他们也留了地步:彻底根绝越狱大概是不或许的,方针仅仅让任何缝隙都「慢到、贵到」来不及被大规模使用。

  但这套机制有价值,并且 Anthropic 自己先说了出来:分类器现在调得偏严,会误伤正常恳求。一个研讨病毒的生物学家,一个做浸透测验的安全工程师,都或许在合理的作业里被不可思议地「降级」。官方供认这会让一些用户感到烦躁,许诺后续渐渐收窄、下降误报。

  我把这件事想了一瞬间,觉得它其实是一个挺聪明、也挺无法的折中。聪明在于,它没有在「发」和「不发」之间二选一,而是在才干上切了一刀;无法在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic 宁可错杀,不愿漏过。

  基准测验我本来想越过——跑分这东西看多了会麻痹,况且 Anthropic 列了一长串,简直项项榜首。

  最唬人的一个来自 Stripe。据 Anthropic 宣布,Stripe 在一个五千万行的 Ruby 代码库上,用 Fable 5 做了一次全库搬迁,一天完结——而这件事,本来要一整个团队手艺干两个多月。更要害的是功率:在 Cognition 的 FrontierCode 编程测验里,Fable 5 在「中等算力耗费」下就拿到了最高分,Token 功率比曾经的 Claude 显着更好。

  这也解说了为什么 Anthropic 重复强调 Token 功率——一个能接连自主作业好久、动辄耗费上百万 Token 的模型,假如还很「废话」,成本会高到没人用得起。

  视觉这块的前进更直观。曾经的 Claude 玩宝可梦火红版,得靠一整套辅助东西链才干磕磕绊绊地推动;Fable 5 只用最根底的视觉接口,就自己通关了。它还能仅凭几张截图,把一个 Web 使用的源代码复原出来。

  Anthropic 内部的蛋白质规划专家,用 Mythos 5 把药物规划流程中的部分环节,加快了大约十倍。第二个更夸大:在一项基因组学研讨里,Mythos 5 在简直彻底自主的状态下继续作业了一周多,自己练习出了一个机器学习模型——这个模型的体现,超越了宣布在《Science》上的同类模型,而它的体量,只要后者的百分之一。

  当一个模型能独立做完一周的科研,还做得比人类发在顶刊上的效果更好,「它会不会被用来规划病毒」就不再是杞人忧天。这正是 Anthropic 给生物化学范畴独自上锁的原因——同一种才干,在研讨者手里是解药,换一双手或许便是其他东西。

  才干和风险,在这里是同一件事的双面。护栏不是由于这个模型不可才加的,恰恰是由于它太行了。

  能够看出,Anthropic 把 Mythos 描绘成一个需求全程看守的风险品。但官方口径之外,也有不一样的声响。

  一位 ID 为 @zekramu 的 X 用户,自称参加了 Mythos 的企业试点,最近发帖共享了用整整一天之后的感触——他的描绘,和发布会上的叙事并不彻底一致。

  据他说,Mythos 的确强,尤其在安全研讨类使命上,显着比 Opus 和 GPT-5.5 的最高配更能打,像是专门冲着这类活儿调过的。但「强」和「要挟人类」是两码事。他举了个细节:这个被官方说得神乎其神的模型,在他们公司一套根据 Bazel(一种代码构建东西)、又改了不少自定义逻辑的流程面前卡了壳,最终还得他先把代码编译好,再让模型去跑。

  更耐人寻味的是护栏自身。据他描绘,Anthropic 随模型一同发来的,不是我们了解的 Claude Code,而是一套专门用来「避免模型逃逸」的运转环境——所谓 Project Glasswing,在他看来十分大程度上便是这套沙箱。但他觉得这套环境做得适当粗糙,乃至置疑其间一部分约束底子没真实收效;他还称自己绕开了官方设下的鸿沟,在沙箱之外跑过这个模型。

  至于战绩,他说 Mythos 在他们的产品里揪出了很多此前没被发现的安全缝隙,多到足以让团队从头衡量自己的安全策略。

  他的定论很值得玩味:这模型在安全攻防上的确有两把刷子,但在他眼里,它更像一个极端贵重、极端专精的东西,而不是 Anthropic 暗示的那种「悬在一切人头顶」的存在。

  换句话说,它是迄今最强的 Claude,也是最贵的 Claude 模型之一。强,但不廉价。

  前面说到的 @zekramu 也算个旁证:据他预算,光是企业试点阶段的投入,就到了数百万美元等级;「太贵」是他重复想念的一句话。

  Anthropic 说,等产能跟上,会把 Fable 5 从头做成订阅标配——但没给详细时刻。API 和按量付费的企业客户不受这个节奏影响,今日起照旧调用。

  这个略显别扭的「先免费、再收费、今后再说」,其实透露了一个信号:产能不行。Anthropic 自己也供认,估计 Fable 5 的需求会「十分高、很难猜测」。一个对一切人敞开的最强模型,先得过算力这一关。

  从 Fable 5 开端,一切 Mythos 级模型的流量都会被强制保存 30 天,掩盖榜首方和第三方渠道。

  Anthropic 许诺不拿这一些数据练习模型,只用于安全监控,比方辨认新式越狱、以及那种涣散在很屡次恳求里、单看每一条都正常的杂乱进犯。为此他们也加了新的隐私维护:记载每一次人工拜访、30 天后根本悉数删去。

  听上去入情入理。但对那些最初正是冲着「零数据保存」才挑选 Anthropic 的企业客户来说,这是一个要从头评价的改变。

  你用最强模型的价值,不仅仅更贵的账单,还包含:你的数据,会在 Anthropic 的服务器上多待一个月。

  安全和隐私,在这里被摆上了同一张天平。而 Anthropic 给出的答案是:为了防住史无前例的进犯,得先把一切人的流量都看上 30 天。这笔账划不划算,恐怕每家公司得自己算。

  把这些放在一同看,Fable 5 真实的新意,或许不在它有多强,而在 Anthropic 趟出了一条新路——怎样把一个风险到不敢揭露的才干,拆成一个一切人都能用的产品。

  方法是:用分类器在才干上切一刀,用降级替代回绝,再用 30 天的留存,当作兜底的监控网。

  它不完美。会误伤,会变贵,会让一部分人对自己的数据多一层顾忌。但它至少答复了一个一切前沿实验室早晚都要面临的问题:当你手里的东西强到足以伤人,你是把它锁进只要少量人能进的房间,仍是给它装上一道满足健壮的护栏,再交到一切人手里?

  至于这道护栏究竟够不行健壮——这一次,替它做压力测验的,不再是那一百多家组织,而是一切人。

相关产品