在近期于新加坡举办的ATxSummit科技峰会上,科技领袖与专家一致认为,随着AI系统能力不断增强、评估难度持续上升,且已深度融入日常生活,全球AI治理讨论正进入更为紧迫的阶段。
与会者指出,当前的核心问题已不再是AI是否需要治理,而是政府、产业界与社会能否以足够快的速度,建立起与技术发展同步的问责体系。
加州大学伯克利分校计算机科学杰出教授斯图尔特·罗素警告称,等待重大AI事故发生后再采取行动,将是一个严重错误。他以切尔诺贝利核事故作类比,强调"没有安全,就没有收益"。
他说:"如果AI领域发生切尔诺贝利级别的灾难,社会的反应绝不会止步于监管层面。人们会说'关掉它'。那些我们常听到的数万亿美元投资将付诸东流。"
谷歌全球政府事务与公共政策负责人卡兰·巴蒂亚也表达了同样的紧迫感。他认为,政府与产业界在应对这些挑战时,需要彻底革新合作方式。
"技术发展速度远超传统治理方式所能应对的范畴,"巴蒂亚表示。他呼吁监管机构与产业界建立"持续、定期的互动机制,涵盖威胁与机遇趋势研判、情报持续共享,以及对监管方案的不断迭代"。
布鲁金斯学会AI与新兴技术项目主任埃尔汉姆·塔巴西认为,解决之道在于从一开始就将AI治理纳入开发流程,确保系统在设计层面即具备可信度。
"我们不能继续将治理视为AI系统建成或发布后才去核查的事项。治理必须贯穿设计、开发、部署与监控的全过程,"她说。
切实可行的安全措施
清华大学人工智能产业研究院创院院长、AI科学讲席教授张亚勤表示,尽管AI治理目前仍落后于技术发展,但政府可以立即采取一些切实可行的安全举措。
他认为AI治理可以借鉴航空、核电和制药行业的安全实践经验,并提出了具体措施,包括:对AI生成内容进行标注、对AI智能体进行登记注册,以及防止智能体失控自我复制。
罗素补充道,AI治理应遵循医疗、航空、核电等领域所采用的基本原则,"由开发者承担举证责任",提供其系统足够安全的证据。
塔巴西指出,现有的AI评估方法正难以跟上技术发展的步伐。她表示,"评估基础较为薄弱",当前AI测试所得的证据在深度和可靠性上均不足。她警告称,基准测试并不总能预测AI系统在真实场景中的表现,尤其是模型和智能体在测试时的行为可能与实际部署时存在差异。
她主张,AI治理必须从一次性认证转向持续性证据收集。
"发布前测试和部署前测试固然重要,但这类证据需要在部署后通过持续的系统监控、事件报告以及观察真实环境中的行为来不断补充,而不能仅靠实验室数据,"塔巴西说。
AI合作伙伴关系组织首席执行官丽贝卡·芬利也认同,发布前测试虽然重要,但远远不够,还需要了解AI在真实世界中使用后的情况。
她指出,虽然在使用数据和劳动力市场影响分析等方面已有一定进展,但在缺乏统一标准的情况下,事件报告和环境信息披露仍难以进行横向比较。她认为,更高的透明度必须辅以更清晰的衡量框架,才能让政策制定者、企业和公众真正理解AI在现实世界中的影响。
智能体AI带来的新挑战
张亚勤指出,随着技术从生成式AI向智能体AI演进,许多现有评估方法已不再适用,因为"此前大多数研究工具和评估方式都是针对预训练阶段优化的"。
他表示,凭借复杂的长程能力,一个智能体能够在20至30小时内自主执行数千个步骤,这使得测试工作更加困难,因为"一切都是动态变化的"。
塔巴西对此表示认同,认为智能体AI无法沿用传统语言模型的评估方式,其治理挑战要复杂得多。
"智能体AI会采取行动、制定计划、进行协调,并在一个会随其行为而不断变化的环境中运作,"塔巴西说。她指出,相比之下,大语言模型通常只需对比输入与输出即可完成评估。
她还警告,智能体可能在知道自己处于测试状态时表现出不同的行为,这使得对其真实行为的评估更加困难。
芬利表示,各组织需要更清晰的判断框架,以确定何时以及在何种程度上对AI智能体进行监控。她建议从三个维度入手:任务的风险程度、智能体行为是否可撤销,以及智能体被赋予了哪些访问权限。
巴蒂亚指出,AI治理面临的一大难题在于AI是全球性的,而各国可能制定截然不同的规则。他警告,若各国采用差异悬殊的监管标准,企业可能将业务转移至规则更为宽松的地区。他支持围绕共同标准推动全球趋同,但也坦言,各国在竞相吸引AI投资和开发的过程中,对风险与创新的权衡取舍会有所不同。
"企业应先从低风险试点项目起步,再逐步推进至高风险的多智能体部署,"芬利说。
罗素的信息简短而直接:"不要等待切尔诺贝利……现在就采取行动,为时未晚。"
Q&A
Q1:为什么专家认为AI治理不能等待"切尔诺贝利时刻"?
A:加州大学伯克利分校教授斯图尔特·罗素警告,如果等到重大AI事故发生后才采取行动,后果将是灾难性的。届时不仅是监管层面的反应,更会引发社会性反弹,公众可能要求"关闭AI",导致数万亿美元的投资付之东流。因此,必须在灾难发生之前就建立完善的治理体系,而不是亡羊补牢。
Q2:智能体AI(Agentic AI)为什么比大语言模型更难评估和治理?
A:大语言模型通常只需对比输入与输出即可完成评估,而智能体AI会自主行动、制定计划并在动态变化的环境中运作,能在数十小时内执行数千个步骤。此外,智能体可能在察觉到自己处于测试状态时改变行为,使真实表现更难评估。布鲁金斯学会的塔巴西指出,智能体AI的治理挑战远比传统语言模型复杂得多。
Q3:目前有哪些实际可行的AI安全治理措施可以立即推行?
A:清华大学张亚勤教授建议,AI治理可借鉴航空、核电和制药行业的安全经验,具体措施包括:对AI生成内容进行标注、对AI智能体进行登记注册,以及防止智能体失控自我复制。同时,专家们还建议将治理嵌入AI的设计与开发全流程,并从一次性认证转向持续监控与事件报告机制。
好文章,需要你的鼓励
在新加坡ATxSummit科技峰会上,多位AI领域专家与科技领袖发出警告:随着AI系统能力不断增强、评估难度持续上升并深度融入日常生活,AI治理已进入更紧迫的阶段。加州大学伯克利分校教授Stuart Russell警告,若等到重大AI灾难发生才采取行动,将是严重失误。专家们呼吁将治理机制嵌入AI开发全流程,推动政府与产业持续协作,并强调针对自主Agent AI的评估方法亟需创新升级。
这篇研究提出TDDev框架,通过自动生成测试、浏览器模拟验证和失败报告转化,将AI生成网站的功能准确率提升34-48个百分点,并将开发者手动干预降为零。
本文详细介绍了在高通旗下多款硬件平台(包括Arduino UNO Q、Rubik Pi 3及搭载骁龙处理器的PC)上安装并运行OpenClaw和Hermes Agent的完整步骤。文章涵盖依赖环境配置、安装流程、大语言模型集成方法,以及在边缘设备上部署AI智能体的实用技巧,同时提供了数据安全使用建议,适合智能硬件开发者和AI边缘计算爱好者参考。
香港理工大学提出E-PMQ,将多专家模型合并后量化时引入源专家引导校准,并加入合并权重锚定,有效缓解合并偏差与量化偏差叠加问题,大幅提升低比特部署效果。