著名影星玛丽莲·梦露曾经深情地演唱钻石是"女孩最好的朋友"。但大多数人并不希望以人命为代价获得高压碳晶体——即所谓的血钻或冲突钻石。为了解决这些担忧,珠宝商向客户提供宝石来源的道德认证。
AI供应商面临着类似的处境。随着机器学习和大语言模型在企业中的广泛应用,用于训练这些AI伙伴的数据来源以及使用方式,对于采用这些技术的组织来说至关重要。
明目张胆违反版权和知识产权法律的野生数据收集行为正日益受到谴责。关于这些模型如何运作和利用数据的更广泛道德担忧也正在成为法律和监管问题。责任风险正在急剧增长。
提供AI产品的公司现在为其客户提供详细报告——道德记分卡——这些报告提供了其模型训练数据来源、处理方式和使用方法的清单。这些记分卡帮助组织与客户建立信任,客户反过来可以更自信地向最终用户展示其产品。
《信息周刊》采访了ThoughtSpot首席数据和AI官Cindi Howson,以及Quantexa联合创始人兼首席技术官Jamie Hutton,探讨道德AI记分卡如何为公司提供选择合适产品所需的透明度——并向最终用户保证他们接收到的信息来源合规。
法律要求
用于训练AI模型的数据受到一系列执行不一致的法规管制。欧盟的《AI法案》是监管AI平台数据使用的唯一综合性立法,与其他欧洲技术法规一样,可能会成为其他司法管辖区的模板。它与欧盟通过的另一项重要立法《通用数据保护条例》的要求重叠。
道德记分卡利用这些立法中制定的框架——以及经济合作与发展组织等发布的非约束性框架——以可理解的方式向用户和监管机构报告数据来源和使用情况。伦理学家开发并在学术期刊上发表的各种标准也可能被使用。
虽然这些记分卡总体上作为道德行为的指标,但它们也是合规文件,证明公司在数据采购、隐私、公正性和问责制方面遵守规则。
预期更广泛的AI立法实施越来越被视为用户的必要保障。像Anthropic这样的AI供应商已经因更狭义的版权违规而受到处罚。其他监管机构也在监管AI中使用的数据。
"FDA监管医疗保健和医疗设备,"Howson说。"有相关框架,但它们没有涉及细粒度的细节。"
在金融领域,细节至关重要。Howson指出,例如,邮政编码不能用于信贷决策,因为它可能充当种族的代理变量,这是一种被称为红线划分的歧视形式。
"拥有可解释和透明的模型不仅仅是良好实践。这是一项要求,"Smith说。"监管机构希望确保模型没有偏见——它们不针对特定年龄段、种族背景、种族或性别。"
如果AI模型因其创建者未充分考虑这些法规而违反了这些规定,供应商和用户都面临风险。鉴于许多模型的广泛地理应用,建议采用通用方法——同时关注行业特定和地方法律。因此,记分卡可以帮助组织向在这些约束下运营的客户推销其产品,并作为协商服务条款的手段。
然而,市场的波动性使记分卡的使用变得复杂。Smith指出,并非每个人都想要最严格管制的产品。"如果你在地理区域A严格监管,但在地理区域B不这样做,那么你就面临竞争优势挑战,"他说。"这是每个政府目前都在努力解决的问题。"
编制道德记分卡
道德记分卡是复杂的文件——它们高度针对行业和个别客户。它们揭示了在模型创建过程中编制的模型卡中包含的相关道德因素。
"该文档将包括诸如训练数据、采用的方法、证明特征公平性等内容,"Smith说。"它被收集成一个巨大的文档,解释了进入模型本身特征的所有内容。"
道德记分卡提取有关数据来源和组织、数据部署的可解释性、模型限制、潜在偏见、隐私权保护以及人类干预能力的信息。然后记录这些问题与合规性的交集。
但评分过程也很复杂。评分这些因素的标准化和客观指标尚未广泛实施。虽然这些信息对于某些机器学习应用相对容易获得,但大语言模型和智能体AI的其他组件更加模糊。它们的运作方式即使对其创建者来说也不完全可理解,这使得准确评分具有挑战性。
"它们比以往更像黑盒,"Smith在提到先进AI系统时谨慎地说。"这对可解释性意味着什么?我还没有很好的答案,但我认为这将是每个人都需要理解的趋势。"Howson也对大语言模型发出了警告。"最初,大语言模型只是进行准确性测试,"她说。它们生成正确回应的能力是主要评估指标。对性能的关注往往以牺牲透明度——和道德考虑为代价。
"在大多数情况下,大语言模型不透明。我们不知道GPT模型训练的完整数据体,"她说,强调了公司采用"设计中的伦理"的必要性,即从一开始就将道德原则——透明度、问责制、公平性——嵌入开发过程的实践。
基准测试,如斯坦福大学的语言模型整体评估,为评分安全性和偏见提供指导,这可能为依赖这些品质来确保声誉的组织或客户提供价值。
在此期间,即使是粗略制作的道德记分卡,也可能成为供应商和组织在应对AI实施及其后果时的资产。
Q&A
Q1:什么是AI道德记分卡?它有什么作用?
A:AI道德记分卡是AI供应商为客户提供的详细报告,记录了AI模型训练数据的来源、处理方式和使用方法。它们帮助组织与客户建立信任,确保AI系统的透明度和合规性,同时向最终用户保证所接收信息的来源合规。
Q2:为什么大语言模型的道德评估更加困难?
A:大语言模型比传统机器学习应用更像"黑盒",其运作方式即使对创建者也不完全可理解。我们不知道GPT模型训练的完整数据体,缺乏透明度,这使得准确评分和道德评估具有挑战性。
Q3:道德记分卡包含哪些关键信息?
A:道德记分卡包含数据来源和组织信息、数据部署的可解释性、模型限制、潜在偏见、隐私权保护、人类干预能力等内容,并记录这些问题与法规合规性的交集,帮助组织评估AI系统的道德风险。
好文章,需要你的鼓励
OpenAI、Anthropic和Google的AI代码助手现在能够在人工监督下连续工作数小时,编写完整应用、运行测试并修复错误。但这些工具并非万能,可能会让软件项目变得复杂。AI代码助手的核心是大语言模型,通过多个LLM协作完成任务。由于存在上下文限制和"注意力预算"问题,系统采用上下文压缩和多代理架构来应对。使用时需要良好的软件开发实践,避免"氛围编程",确保代码质量和安全性。研究显示经验丰富的开发者使用AI工具可能反而效率降低。
这项研究由北京交通大学研究团队完成,系统阐述了人工智能智能体从"流水线"范式向"模型原生"范式的转变。研究表明,通过强化学习,AI可以自主学会规划、使用工具和管理记忆等核心能力,而不再依赖外部脚本。论文详细分析了这一范式转变如何重塑深度研究助手和GUI智能体等实际应用,并探讨了未来多智能体协作和自我反思等新兴能力的发展方向。
英伟达与AI芯片竞争对手Groq达成非独家授权协议,将聘请Groq创始人乔纳森·罗斯、总裁桑尼·马德拉等员工。据CNBC报道,英伟达以200亿美元收购Groq资产,但英伟达澄清这并非公司收购。Groq开发的LPU语言处理单元声称运行大语言模型速度快10倍,能耗仅为十分之一。该公司今年9月融资7.5亿美元,估值69亿美元,为超200万开发者的AI应用提供支持。
Prime Intellect团队发布开源AI训练全栈INTELLECT-3,这个106亿参数模型在数学、编程等测试中超越多个大型前沿模型。团队完全开源了包括prime-rl训练框架、环境库、代码执行系统在内的完整基础设施,为AI研究社区提供了高质量的训练工具,推动AI技术民主化发展。