在讨论人工智能革命时,我经常观察到一个普遍现象。
人们基本上是将当今的技术世界与过去带来互联网、大数据、云计算等创新浪潮进行比较。
可以肯定的是,这些技术并非凭空而来。它们是逐步发展的——一点一点构建而成。有一个很好的论点认为,互联网为人工智能的蓬勃发展奠定了基础。至少,它为数字活动提供了一个平台或环境,让AI可以进行指导——比如当Claude或其他模型开始作为智能体主动使用互联网时。
因此,我们偶尔会更细致地审视已经发生的事情,以及原因。
15年的飞轮效应
这在Sungjoo Yoon最近的TED演讲中被提及,他开始讨论自己早年的恋爱经历,以及他如何理解一个特定伴侣的善变——她决定离开他去找他的最好朋友。
他将此类比为消费趋势和市场变化,当公司的产品或服务有15分钟的辉煌时刻,然后就被其他东西取代。他称这为市场中的"构造性转变",例如,1969年命令行界面的最终被取代,而这些界面是早期个人计算机发展的基础。
"我们在1969年看到了Thompson Shell的创建,这是第一个Unix shell,如果你知道终端,就可以直接输入命令,它催生了现代终端命令,"他说。"你可以输入内容,它会为你做更多计算。这是新旧交替的基础案例。"
他提到了80年代图形用户界面的兴起,90年代基于web的界面,以及21世纪的明显进步。
什么推动了变革?
在整个过程中,Yoon提到了他称为偏好原则的概念,这表明如果你对某人的喜好有更多信息,你就可以围绕这些信息创建更强大的技术,换句话说,创造更有吸引力的技术。
"我曾在加州理工学院的行为经济学实验室担任研究员,这实际上是一个存在于全世界的基本原则,"他说。
当你看福利分配时,它只是人们需要什么的产物,找出他们需要什么,并试图以有效的方式分配和配置资源。为了有效地做到这一点,你需要关于这些需求实际是什么的真实信息。"
他涵盖了拍卖理论和基于偏好原则的行为,比如对过度出价的恐惧。他还引用了就业世界和招聘决策:
"如果我们想要在全世界范围内实现有效的劳动力配置,我们需要大量关于人们实际技能的信息,这样对于需要很高技能水平的工作,"他说。"我们不会分配没有这些技能的人,反之亦然。"
然后是界面理论。
"这在消费技术中是一个被严重忽视但至关重要的概念,"他说"我说被忽视是什么意思?想想人们谈论消费技术外形因素的方式。这很奇怪,因为它不仅仅是硬件尺寸,对吧?这是很多人喜欢使用的定义。任何给定产品的硬件尺寸是什么?"
他举了iPhone的例子,以及这款设备多年来的变化。
"实际上它并不严格关于尺寸本身,否则我们会看到随时间更一致的模式。它也不仅仅是这些尺寸创造的最终体验。"
他建议,开发者正在关注这些想法,试图更好地向不断增长的用户群体和新一代进行营销——你猜对了——偏好在改变。
"参与只是意味着你在广泛的人群中拥有更多聚合偏好,"他说,"更多聚合偏好意味着更高的信息质量,因此产品质量更高。"
Yoon引用了Google、YouTube和LinkedIn作为正在进行这项研究并充分利用他们聚合信息的平台。
他还指出,有更好的方法来获取信息本身。
语言很重要
Yoon谈到了自然语言和非自然语言。
基本上,他建议,如果你只是要求一个人提供信息,那是尴尬和不自然的。相比之下,如果你使用自然语言和社会过程,那在一般情况下会更有效。
他指出,自然语言等于信任。
智能体时代
这如何应用于AI实践?
我们开始看到AI智能体主动采取行动并开始独立完成任务。它们被设计为由人类松散指导以达到目标,但它们自己提出任务。
这意味着我们很快就会在一个始终由人类参与者指导的世界中拥有所有这些非人类参与者。
这可能就是Yoon用他的偏好原则以及技术的渐进变化所指出的很多内容,如果我们要构建一个更好的前进道路,我们必须考虑这些变化。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。