在讨论人工智能革命时,我经常观察到一个普遍现象。
人们基本上是将当今的技术世界与过去带来互联网、大数据、云计算等创新浪潮进行比较。
可以肯定的是,这些技术并非凭空而来。它们是逐步发展的——一点一点构建而成。有一个很好的论点认为,互联网为人工智能的蓬勃发展奠定了基础。至少,它为数字活动提供了一个平台或环境,让AI可以进行指导——比如当Claude或其他模型开始作为智能体主动使用互联网时。
因此,我们偶尔会更细致地审视已经发生的事情,以及原因。
15年的飞轮效应
这在Sungjoo Yoon最近的TED演讲中被提及,他开始讨论自己早年的恋爱经历,以及他如何理解一个特定伴侣的善变——她决定离开他去找他的最好朋友。
他将此类比为消费趋势和市场变化,当公司的产品或服务有15分钟的辉煌时刻,然后就被其他东西取代。他称这为市场中的"构造性转变",例如,1969年命令行界面的最终被取代,而这些界面是早期个人计算机发展的基础。
"我们在1969年看到了Thompson Shell的创建,这是第一个Unix shell,如果你知道终端,就可以直接输入命令,它催生了现代终端命令,"他说。"你可以输入内容,它会为你做更多计算。这是新旧交替的基础案例。"
他提到了80年代图形用户界面的兴起,90年代基于web的界面,以及21世纪的明显进步。
什么推动了变革?
在整个过程中,Yoon提到了他称为偏好原则的概念,这表明如果你对某人的喜好有更多信息,你就可以围绕这些信息创建更强大的技术,换句话说,创造更有吸引力的技术。
"我曾在加州理工学院的行为经济学实验室担任研究员,这实际上是一个存在于全世界的基本原则,"他说。
当你看福利分配时,它只是人们需要什么的产物,找出他们需要什么,并试图以有效的方式分配和配置资源。为了有效地做到这一点,你需要关于这些需求实际是什么的真实信息。"
他涵盖了拍卖理论和基于偏好原则的行为,比如对过度出价的恐惧。他还引用了就业世界和招聘决策:
"如果我们想要在全世界范围内实现有效的劳动力配置,我们需要大量关于人们实际技能的信息,这样对于需要很高技能水平的工作,"他说。"我们不会分配没有这些技能的人,反之亦然。"
然后是界面理论。
"这在消费技术中是一个被严重忽视但至关重要的概念,"他说"我说被忽视是什么意思?想想人们谈论消费技术外形因素的方式。这很奇怪,因为它不仅仅是硬件尺寸,对吧?这是很多人喜欢使用的定义。任何给定产品的硬件尺寸是什么?"
他举了iPhone的例子,以及这款设备多年来的变化。
"实际上它并不严格关于尺寸本身,否则我们会看到随时间更一致的模式。它也不仅仅是这些尺寸创造的最终体验。"
他建议,开发者正在关注这些想法,试图更好地向不断增长的用户群体和新一代进行营销——你猜对了——偏好在改变。
"参与只是意味着你在广泛的人群中拥有更多聚合偏好,"他说,"更多聚合偏好意味着更高的信息质量,因此产品质量更高。"
Yoon引用了Google、YouTube和LinkedIn作为正在进行这项研究并充分利用他们聚合信息的平台。
他还指出,有更好的方法来获取信息本身。
语言很重要
Yoon谈到了自然语言和非自然语言。
基本上,他建议,如果你只是要求一个人提供信息,那是尴尬和不自然的。相比之下,如果你使用自然语言和社会过程,那在一般情况下会更有效。
他指出,自然语言等于信任。
智能体时代
这如何应用于AI实践?
我们开始看到AI智能体主动采取行动并开始独立完成任务。它们被设计为由人类松散指导以达到目标,但它们自己提出任务。
这意味着我们很快就会在一个始终由人类参与者指导的世界中拥有所有这些非人类参与者。
这可能就是Yoon用他的偏好原则以及技术的渐进变化所指出的很多内容,如果我们要构建一个更好的前进道路,我们必须考虑这些变化。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。