MIT媒体实验室正在将其人机交互理念转化为可衡量的治理体系。通过其新推出的网络智能进化可扩展AI项目(sAIpien),该实验室正在探讨一个关键问题:如果AI正在影响医院、城市和财富500强企业的决策,那么领导层能否解释这些决策、哪些人类批准了这些决策,以及它们是否有效?
专注于人机系统
sAIpien项目并非发布新模型或技术产品,而是专注于可审计的人机系统,这些系统是团队可以检查、调整并用于集体决策的界面。该项目将负责任AI的讨论从政策层面转向工程学科,将用户体验标准与可追踪的治理文档相连接,从界面设计一直延伸到董事会级别的问责制。
sAIpien项目结合了人机交互(HCI)、数据隐私和跨领域设计的研究。该项目的人性化、冷静和智能界面(HCI?)框架致力于开发能够强化人与人协调的工具,而不仅仅是将人类置于循环中。
访问教授兼创始教员之一的Hossein Rahnama博士总结了这一理念:"AI应该让我们更加紧密相连,而不是更加分心。当机器有效运作时,人们能够更好地理解彼此。"
这是媒体实验室多年来一直探索的主题。早期的有形媒体和城市科学项目模糊了界面与环境之间的界限。sAIpien建立在这一传统基础上,将交互设计与反映金融控制或临床安全系统严谨性的问责制框架相融合。
从研究理论到治理架构
五个关键要素定义了sAIpien的工作方向。AI生态系统,即通过合作推动技术进化的系统观;AI素养,专注于教授高管AI的实际行为,而非仅仅是承诺;数据和决策完整性,旨在使结果可解释和可测试;跨学科设计,将伦理和可用性嵌入工程中;以及优先考虑尊严、透明度和包容性的以人为中心的设计。
该项目的早期试点旨在将"登月"想法转化为数字孪生、原型和政策文档,这些成果能够从实验室成功过渡到董事会。这与典型的学术研究形成对比,后者往往止步于白皮书而非可审计的系统。
与那些止步于政策声明的企业AI伦理委员会不同,sAIpien要求可衡量的证据。每个合作机构都需要产出具有可验证性能指标的原型或仿真。该实验室的联盟模式还邀请跨领域同行评议,这为防范竞争保密提供了保障,也为共享学习提供了机制。
Rahnama将这种模式描述为"负责任创新的活生态系统"。他说,目标是"让合作伙伴看到他们在数据设计、治理和交互方面的选择如何改变实际结果"。
sAIpien与全球负责任AI模式的比较
MIT的新项目推出之际,全球机构正在日益收紧AI治理。美国国家标准与技术研究院(NIST)建立了AI风险管理框架,为企业提供了映射和缓解风险的词汇表。英国AI安全研究所推出了Inspect平台,用于评估模型在真实环境下的行为。
大型科技公司也在做出回应。微软的负责任AI标准将伦理检查点纳入其软件生命周期,而Anthropic的宪法AI实验通过自我批评机制在训练过程中执行政策约束。斯坦福的以人为中心的人工智能(HAI)项目发布了价值对齐和透明度的基准。
sAIpien的方法在这个生态系统中作为设计层面的补充。NIST专注于治理结构,Anthropic在模型层面工作,而MIT则在处理人们在具体情境中如何体验、评估和质疑机器推理的界面问题。
创始教员团队包括Hossein Rahnama、Dava Newman、Kent Larson、Matti Gruener和Alex "Sandy" Pentland,涵盖了从空间系统到城市分析的各个学科。他们的综合专业背景使sAIpien能够覆盖企业、政府和城市规模的网络。
每个实验室都贡献了更大拼图的一部分。城市科学通过数据孪生建模城市基础设施;人类动力学量化社会互动;空间赋能探索行星系统如何为可持续设计提供信息。它们共同形成了一个协作测试平台,在这里原型可以被审计,而不仅仅是演示。
sAIpien的独特工具之一是数字孪生的使用,这些仿真允许团队在部署前测试政策或产品决策。这可能是医院分诊的孪生系统,平衡患者负荷、人员配置和资源公平,或者是城市交通孪生系统,建模通勤时间、碳排放和可达性之间的权衡。
这些系统将抽象的伦理转化为可操作的实验,在启动前可以量化性能、公平性和信任度。媒体实验室期望这些孪生系统为未来的监管和行业标准生成证据,发挥与临床试验在医学中相同的作用。
重要意义
AI部署正在快速从试点项目转向业务线运营。这不仅引发了如何持续审计生产系统的问题,还涉及谁来审计审计者?董事会需要一致的保证文档,如文件、日志和评估轨迹,这些都是监管机构和内部风险团队可以验证的。
通过将交互设计与合规就绪的文档连接,sAIpien可能填补一个关键空白。它将伦理意图转化为可衡量的治理结果,这是大多数组织仍在努力实现的目标。从这个意义上说,它正在构建"AI版萨班斯法案",一个控制和可追溯性框架,使高管能够在审查下为AI决策进行辩护。
Q&A
Q1:sAIpien项目是什么?它的主要目标是什么?
A:sAIpien是MIT媒体实验室推出的网络智能进化可扩展AI项目,专注于开发可审计的人机系统。其主要目标是让AI决策变得可解释、可追踪和可问责,帮助医院、城市和企业的领导层能够审计和解释AI影响的决策。
Q2:sAIpien与其他负责任AI项目有什么不同?
A:与NIST的治理框架和Anthropic的模型层面工作不同,sAIpien专注于设计层面的界面问题,处理人们如何体验、评估和质疑机器推理。它要求可衡量的证据而非仅仅的政策声明,每个合作机构都需要产出具有可验证性能指标的原型或仿真。
Q3:数字孪生在sAIpien项目中起什么作用?
A:数字孪生是sAIpien的独特工具,这些仿真允许团队在部署前测试政策或产品决策。例如医院分诊的孪生系统可以平衡患者负荷、人员配置和资源公平,城市交通孪生系统可以建模通勤时间、碳排放和可达性之间的权衡,将抽象伦理转化为可量化的实验。
好文章,需要你的鼓励
阿里纳德数据中心与Calibrant Energy合作开发首创电池储能系统,通过绕过传统电网升级时间线,使俄勒冈州希尔斯伯勒在建数据中心园区提前数年上线。该31兆瓦、62兆瓦时储能系统计划2026年投运,将作为响应电网的动态资产,在需求高峰期放电,增强区域电网可靠性。这标志着美国首次使用专用电池系统加速大型数据中心并网。
威斯康星大学研究团队开发了LUMINA系统,专门检测AI在回答问题时的"撒谎"行为。该系统发现AI有时会忽视提供的参考资料,固执地依赖内部知识生成不准确回答。LUMINA通过监测AI对外部文档和内部知识的依赖程度来识别这种行为,在多个测试中达到90%以上的准确率,比以往方法提升13%,为构建更可信的AI系统提供了重要工具。
微软在Edge浏览器中推出增强版Copilot模式,提供更强大的AI代理功能,目前在美国进行限量预览。该模式包含Actions和Journeys两大功能:Actions让浏览器能代表用户执行任务,如语音控制打开网页或查找文章特定内容;Journeys则记住用户浏览历史,帮助用户继续之前的研究任务。此举正值AI浏览器竞争加剧,OpenAI推出ChatGPT Atlas、Perplexity发布Comet、谷歌集成Gemini到Chrome。目前Chrome占据71%市场份额,Edge仅占4.67%。
这项由法国CentraleSupélec大学领导的研究通过严格控制的实验,系统比较了AI的推理训练与传统训练方式。研究发现推理训练在数学、开放式任务中效果显著,但需要70亿参数以上模型才能充分发挥优势,且成本增加明显。研究为AI开发者提供了明确的应用指导,有助于根据具体场景选择最优训练策略。