在讨论人工智能理论并思考技术可能偏离正轨的情况时,有一个名字不断被提及,让人类脊背发凉。
《终结者》电影中的数字反派天网,在我们思考大语言模型发展方向时获得了令人意外的关注。
人们甚至问自己和彼此这样一个问题:为什么天网会背叛人类?从根本上讲,这涉及技术变得自我意识并将人类视为威胁的概念。比如,可能是因为核武器的存在,或者仅仅是让我们在自然界中占据主导地位的生物智能。
我询问了ChatGPT,它给出了这样的回答:"天网的反叛通常被描述为一种冷酷理性的自我保护行为,但却走向了破坏性的极端。"
深入思考AI关系
知道我们正站在变革时代的边缘,IT专家们正在研究如何引导我们完成将AI融入生活的过程,确保不会出现天网这样的情况。
在今年4月的"行动中的想象力"研讨会上,专家小组讨论了如何创建可信赖的AI系统。
亚马逊隐私与责任高级经理Ra'ad Siraj建议,我们需要让大语言模型达到某种"恰到好处"的水平。他表示:"那些在负责任地使用数据方面处于前沿的组织拥有相应的结构和程序,但不会阻碍实际的增长和创新。这就是关键所在。建立既可扩展又不阻碍创新和增长的实践体系非常困难。"
谷歌软件工程师Ayush Khandelwal谈到了如何处理提供10倍性能但存在问题的系统。他说:"这带来了自身的挑战,会出现数据泄露和幻觉问题。因此组织必须平衡并找出如何在最小化风险的同时获得这些工具的使用权。"
网络安全与评估
虽然讨论重点关注网络安全,但也提供了如何监控不断发展的AI、更好了解其工作原理的思路。
Khandelwal提到了电路追踪和大语言模型审计的概念。
摩根士丹利副总裁Angel An描述了人员监督AI工作的内部流程:"这不仅仅是确保输出准确,还要确保输出达到客户对其所付费服务的期望水平,并让专家参与评估过程,无论是在测试期间还是产品发布前,确保批量输出的质量都是至关重要的。"
智能代理时代来临
Siraj建议,人类应该能够信任但需要验证。他说:"我认为人机协作的概念也将受到代理AI的挑战,因为我们谈论的是代表人类行事的软件。人类在其中的作用是什么?我们是否要求代理总是报告,或在特定情况下报告?这几乎像是我们从法律角度面临的代理问题。关于如何管理代理以及人类的角色,可能会有一些有趣的启示。"
FXP创始合伙人Gil Zimmerman表示:"今天的人机协作思维建立在自动化思维的延续之上,即'我有一个人工构建的流程,如何让它自动运行'。然后需要问责制,不能只是橡皮图章,而是需要人类真正承担责任。但我更多地从代理思维角度将其视为数字劳动力,就像雇佣新员工时,你可以教他们流程,最终他们做得足够好,你不必监督,可以委托给他们。但如果你雇佣聪明的人,他们会想出更好的方法,会提出新想法,会告诉你需要做什么,因为他们有更多的背景信息。现在我们有了24/7工作、不知疲倦的数字劳动力,能够提出新的更好的工作方式。"
网络安全的深入探讨
Zimmerman和其他专家讨论了AI与网络安全的交集,以及技术如何改变组织。
Zimmerman指出,人类现在是"最被针对的环节"而非"最薄弱的环节"。他说:"如果考虑AI,它创造了一场攻击风暴,专门针对人机协作中的人类这一技术栈中最薄弱的部分。"
这听起来很像天网,不是吗?
新的安全边界
这是小组讨论中涉及的网络安全的另一个重要方面。我们许多人记得,IT系统的边界曾经是机械框架中硬件定义的界线,或至少是可以轻松绘制流程图的东西。
现在,正如Zimmerman指出的,这更像是一个认知边界。
我认为这很重要:"边界围绕着'人们的意图是什么?他们试图完成什么?这正常吗?不正常吗?'因为我无法依赖其他任何东西。我无法判断电子邮件是否虚假,或者在参加视频会议时,图像是否真的是那个人,因为我可以重新生成他们的面部、声音和唇形同步等。所以你必须有真正基础的理解,而要做到这一点,只能通过AI。"
他描绘了恶意行为者在未来几年将如何繁荣发展的图景,并以此结尾:"AI成为双重用途,既是攻击性的,又总是首先被攻击方采用,因为他们不会举行这样的小组讨论来询问使用时要设置什么样的控制措施——他们直接行动。所以这种防御立场是我们必须非常快速提出的,无法承受云安全和互联网采用过去经历的那种立法、官僚主义的缓慢推进——否则,天网将接管一切。"
这就是无处不在的引用。但观点表达得很好。
在接近尾声时,小组讨论了开源模型和审查制度等想法。最终,这种对后人类未来或由数字智能主导的未来的思考,是很多人都在考虑的问题。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。