Anthropic最强大的生成式AI模型目前仍仅向少数机构和网络安全专业人员开放,但面向普通用户的最强Claude模型即将迎来升级。
Anthropic于周四发布了Claude Opus 4.8,并在官方博客中将其定位为"相比Opus 4.7有适度但切实的改进"。
与此同时,Anthropic也透露,公司正在为向公众开放Claude Mythos Preview模型做积极准备。目前,该模型仅在名为"Glasswing项目"的框架下,向合作伙伴联盟开放受限访问权限。Anthropic解释称,Mythos在网络安全领域的能力已相当强大,因此有必要事先给予网络安全专家和主要科技公司一定的时间窗口,以修复模型发现的安全漏洞。
"这一能力级别的模型,在面向公众发布之前需要更严格的网络安全防护措施,"Anthropic表示,"我们正在快速推进相关防护措施的研发,预计将在未来数周内向所有用户开放Mythos级模型。"
Mythos向所有人开放?
Anthropic暂时对公众限制Mythos Preview访问权限的决定引发了广泛讨论:这究竟是出于保护互联网关键基础设施的前瞻性举措,还是一种制造市场热度的营销策略?安全研究人员发现,该模型在发现安全漏洞方面的速度远超人类黑客,尽管其能力尚未突破人类的极限。Mozilla最新版Firefox浏览器中,就包含了超过200项由Mythos Preview识别出的修复项目。
然而,Mythos即将向所有人开放的事实——即便附带严格的网络安全防护措施——意味着我们终将见证这一模型能否兑现外界期待,而这背后也伴随着不可忽视的风险。
网络安全公司BlackFog创始人兼CEO达伦·威廉姆斯在接受CNET采访时表示,重大模型发布往往是令人紧张的时刻。
"一方面,Anthropic分阶段发布、等待防护措施就绪后再推进的做法,体现了正确的判断,"他说,"但模型能力越强,一旦防护措施不到位或模型遭到滥用,潜在风险就越大。强大模型发布到广泛部署防御措施之间的窗口期,始终是最脆弱的时刻。"
不过,Mythos的运行成本远高于其他AI模型,这可能在一定程度上限制其被黑客利用的可能性。IANS Research的网络安全研究员及讲师杰克·威廉姆斯表示,在测试中,Mythos的使用成本是上一代Opus模型的30倍。
"这对于大多数人来说都难以承受,包括普通的网络威胁行为者,"威廉姆斯告诉CNET,"国家级行为者本就已掌握更先进的漏洞挖掘技术。Mythos的出现只会改变一小部分威胁行为者的格局。"
Claude Opus 4.8有哪些新变化
在Opus 4.8方面,Anthropic表示其在各项基准测试中均优于Opus 4.7。测试显示,Opus 4.8更不容易做出无依据的断言,也更倾向于在不确定时如实表达不确定性。
此外,Anthropic的AI产品还将引入若干新功能,包括在Claude.ai及Claude Cowork中自定义模型"响应力度"的能力。较高的力度设置意味着模型将花费更多时间处理回复,通常能获得更优质的结果,但也会更快消耗使用配额;较低的设置则响应更快,消耗配额的速度也更慢。
Q&A
Q1:Claude Mythos Preview目前为什么不对普通用户开放?
A:Anthropic表示,Mythos在网络安全方面的能力极为强大,在向公众发布之前,需要部署更严格的安全防护措施。目前该模型仅在"Glasswing项目"框架下向特定合作伙伴和网络安全专家开放,以便他们有足够时间修复模型发现的安全漏洞。Anthropic预计将在未来数周内向所有用户开放Mythos级模型。
Q2:Claude Opus 4.8相比Opus 4.7有哪些改进?
A:Anthropic表示,Claude Opus 4.8在多项基准测试中优于Opus 4.7,整体属于"适度但切实的改进"。具体来看,Opus 4.8更不容易做出无依据的断言,也更倾向于在回答不确定时主动说明。此外,Anthropic还为Claude.ai和Claude Cowork引入了可调节模型"响应力度"的新功能,用户可根据需求在响应质量与使用配额消耗之间灵活平衡。
Q3:Mythos模型的高成本会影响其被黑客滥用的风险吗?
A:根据网络安全研究员杰克·威廉姆斯的测试,Mythos的运行成本是上一代Opus模型的30倍,这使得大多数普通网络威胁行为者难以负担。他指出,国家级行为者本就拥有更先进的漏洞挖掘工具,因此Mythos的出现实际上只会对一小部分威胁行为者产生影响,高成本在一定程度上构成了天然屏障。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。