开源权重AI模型(OWMs)带来了一系列独特的风险因素,而现有的评估实践大多是针对闭源权重模型的部署场景设计的,难以有效应对这些风险。研究人员提出了一套针对开源权重AI模型的"相称性评估"(PE)方法,并对2025年至2026年4月间发布的开源权重AI模型进行了系统性梳理与审查。结果显示,在所审查的37个模型系列中,仅有一个满足PE1至PE4的全部要求,绝大多数模型甚至未能满足其中任何一项标准。
Q&A
Q1:开源权重AI模型和闭源权重模型在评估上有什么不同?
A:开源权重AI模型允许外部访问模型权重,这带来了闭源模型所没有的独特风险,例如被滥用或进行未经授权的修改。现有评估体系主要面向闭源模型设计,无法有效覆盖开源权重模型的潜在风险,因此需要专门的相称性评估方法来填补这一空白。
Q2:什么是相称性评估(PE)方法?
A:相称性评估是研究人员专门为开源权重AI模型提出的一套评估框架,旨在根据模型开放程度和潜在风险,制定与之匹配的评估标准和流程,确保评估力度与模型实际带来的风险相称,而非沿用针对闭源模型的通用方法。
Q3:目前开源权重AI模型的评估现状如何?
A:研究人员对2025年至2026年4月间发布的37个开源权重AI模型系列进行了系统审查,发现情况不容乐观。其中只有一个模型系列完整满足了PE1至PE4的全部相称性评估要求,而大多数模型系列甚至未能达到任何一项标准,整体评估实践严重滞后。
好文章,需要你的鼓励
开源AI智能体OpenClaw今日宣布正式推出iOS和Android应用。用户可通过手机连接OpenClaw Gateway路由层,调用AI智能体及其工具完成各类任务,涵盖编程、餐饮规划等场景。OpenClaw此前因MoltBook社交媒体实验走红,其创始人Peter Steinberger已于今年2月加入OpenAI。尽管MoltBook事件后来被揭露部分由真人假扮智能体,此次移动端上线标志着AI智能体正加速渗透日常生活。
香港大学与字节跳动研究团队提出"桥接动作"概念,通过只学习人类手腕的平移轨迹(丢弃噪声大且易误导机器人的旋转信息),实现从人类操作视频向双臂机器人的高效技能迁移。
AMD 最近推出了第二代 AMD Versal Premium MoP(Memory on Package,封装上内存)自适应SoC。
ProMSA是由清华大学与OPPO联合提出的视觉问答智能体,通过自适应切换图像和文字检索工具、多轮渐进式搜索,在E-VQA和InfoSeek上超越现有方法。