欧盟正在推动AI公司提高透明度,周四发布了一份实践准则,帮助科技巨头为遵守欧盟具有里程碑意义的《AI法案》做好准备。
这些规则——尚未最终确定,主要涉及版权保护、透明度和公共安全——将在8月2日对最大的"通用AI"制造商生效时最初采用自愿性质。
但欧盟将从2026年8月开始执行《AI法案》,欧盟委员会指出,任何同意这些规则的公司都可能受益于"减轻行政负担和增加法律确定性",《纽约时报》报道。委员会建议,拒绝自愿规则可能迫使公司以更昂贵或更耗时的方式证明其合规性。
AI行业参与了《AI法案》的起草,但一些公司最近敦促欧盟推迟执行该法律,警告称欧盟可能因对公司施加严格限制而阻碍AI创新。
欧盟要求谷歌、Meta和OpenAI等公司自愿承诺的最具争议的承诺之一,是承诺永远不会盗版材料来训练AI。
许多AI公司备受争议地使用盗版书籍数据集来训练AI,包括Meta,该公司在因种子下载未经授权的书籍副本而受到指责后,声称单本书籍对训练AI来说价值微不足道。但欧盟不同意这种观点,建议科技公司指定员工并创建内部机制,在"合理时间范围内"处理版权持有者的投诉,版权持有者必须被允许将其创意作品从AI训练数据集中排除。
欧盟规则迫使AI制造商采取行业大多抵制的其他措施。最值得注意的是,AI公司需要分享有关其训练数据的详细信息,包括提供关键模型设计选择的理由,并准确披露其训练数据的来源。这可能会更清楚地显示每个公司的模型在多大程度上依赖于公开可用数据,而不是用户数据、第三方数据、合成数据或某些新兴数据源。
该准则还详细说明了对AI公司尊重付费墙以及限制爬虫的robots.txt指令的期望,这可能有助于解决AI爬虫过度访问网站的日益严重问题。它"鼓励"在线搜索巨头采用Cloudflare目前正在推动的解决方案:允许内容创作者通过限制AI爬虫来保护版权,而不影响搜索索引。
此外,公司被要求披露训练和推理的总能耗,使欧盟能够在公司加速AI创新的同时发现环境问题。
更重要的是,该准则的安全指导为监控其他危害提供了额外措施。它建议检测和避免新AI模型的"严重事件",这可能包括网络安全漏洞、关键基础设施中断、"对人身健康(精神和/或身体)的严重伤害"或"人员死亡"。它规定在5到10天的时间内向欧盟AI办公室报告严重事件的时间表。它要求公司跟踪所有事件,提供"充分水平"的网络安全保护,尽最大努力防止越狱,并证明"系统性风险缓解措施的任何失败或规避"的合理性。
Ars联系了科技公司,希望获得对新规则的即时反应。OpenAI、Meta和微软拒绝置评。谷歌发言人确认公司正在审查该准则,该准则仍需要在预期的行业反对声中获得欧盟委员会和欧盟成员国的批准。
"欧洲人应该在一流、安全的AI模型可用时获得使用权,并拥有促进创新和投资的环境,"谷歌发言人说。"我们期待审查该准则,并与其他模型提供商和许多其他方一起分享我们的观点。"
这些规则只是《AI法案》的一部分,据《纽约时报》报道,该法案将在未来一年或更长时间内分阶段开始生效。《彭博社》指出,违反《AI法案》可能导致AI模型被撤出市场或面临"高达公司年销售额7%或先进AI模型开发公司3%"的罚款。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。