不要盲信,要验证。根据AI研究员Vishal Sikka的观点,大语言模型本身受到计算边界限制,当突破这些边界时就会开始产生幻觉。解决方案是什么?让伴侣机器人来检查它们的工作。
"期望在特定数据量上训练的模型能够执行任意大量可靠计算是错误的假设。这正是论文的重点,"Vianai Systems首席执行官Sikka在本周讨论该研究的电话会议中表示。
Sikka是AI领域的权威人物。他拥有斯坦福大学的博士学位,导师是John McCarthy,正是这位学者在1955年提出了"人工智能"这个术语。从McCarthy那里学到的经验启发Sikka与儿子合作撰写了研究论文《幻觉站点:基于Transformer的语言模型的一些基本限制》,该论文于7月发表。这位前SAP首席技术官和Infosys前首席执行官去年开始研究大语言模型和AI智能体的有效性。
"我儿子提出了一个例子,两个提示具有相同的Token,当运行时,无论Token是什么,都会执行完全相同数量的操作,"他说。"这就是重点所在,无论提示表达的是用户执行特定计算的意图,还是表达用户撰写某个主题文本的意图,它执行的计算数量都完全相同。"
试图突破大语言模型的这一限制会产生困扰模型输出的幻觉。
"当我们说'帮我订票,然后刷我的信用卡或从银行扣款,再发布到我的财务应用',这正是所有智能体供应商所宣称的,你要求智能体执行对你有意义的操作,对你具有特定语义,如果底层是纯大语言模型,无论该模型如何工作,它执行这类任务的能力都是有界的,"他说。"因此,在使用纯大语言模型的智能体时,执行这类操作必须极其谨慎。"
但是,2019年创立Vianai的Sikka表示,当大语言模型得到能够验证工作的系统支持,仅将基础模型用于计算能力时,输出会变得更加准确。Sikka说,以Vianai的Hila为例,它能够执行关键任务,比如将财务报告从20天的人工劳动减少到5分钟。
"对于特定领域,当你用护栏围绕大语言模型,用经过验证的可靠方法时,你能够为整个系统提供可靠性,"他说。"不只是我们。很多系统都是这样工作的,它们将大语言模型与另一个能够确保模型正确性的系统配对。我们在产品Hila中就是这么做的。我们将大语言模型与特定领域的知识模型结合,然后Hila就不会犯错误。"
Sikka将其比作谷歌用于识别制药蛋白质的结构。谷歌的AlphaFold拥有名为Evoformer的定制大语言模型,可创建候选蛋白质,然后输入到另一个"非想象性"系统中检查配置缺陷。
"因此产生的任何东西都更有可能是真正的蛋白质,然后重复这个循环三次,结果几乎可以保证是特定情况下的蛋白质,"Sikka说。"他们以这种方式生产了大约25万种蛋白质,而生产一种蛋白质过去需要科学家团队花费数年时间。"
他继续说道,"至于'为什么?'作为科学家,你总是要试图理解技术的边界。有些人称之为'概览效应'。John McCarthy称之为'限定'。他还为此命名了一套AI技术,试图构建具有限定性的系统。当然,生成式AI会产生幻觉,所以'为什么?'是自然要问的问题。最后,从Vianai创立之初,我们就致力于为AI系统引入可解释性、可观测性和透明度。"
AI狂热的第四次浪潮
在与Sikka的对话中,他分享了从其他技术先驱如Alan Kay和Marvin Minsky那里亲身学到的智慧珍珠。
"Marvin Minsky过去常说'心智社会',对吧?"Sikka说,这个短语是Minsky 1986年关于人类智能的影响深远著作的标题,基于他在AI方面的工作。"有一系列事物结合在一起创造智能。我认为这就是我们最终的方向,但我们会在通往那里的路上跌跌撞撞。"
Minsky实际上写了一封推荐信帮助Sikka进入斯坦福。虽然这封信仍在加利福尼亚的招生办公室某处,但Minsky的推荐让Sikka对AI从1980年代以来的发展有了清晰的视角。
"这是我职业生涯中第四次观察到AI狂热,"Sikka说。"在80年代,有一整波炒作在十年间兴起又消退。和现在一样。定制硬件。AI专用芯片。AI模型。基础应用。甚至有风投公司成立来资助AI。有些公司名字叫'思维机器'、'应用智能'。那是不同的时代和不同的技术。然后人们意识到这很酷,但不是智能。它有特定的应用边界,然后就衰落了。"
尽管与AI打交道超过40年,Sikka说即使现在这项技术仍处于早期阶段。虽然在编程方面有显著成功,但他指出MIT研究显示95%的AI项目失败,并将当前AI使用比作电视新闻早期,主播在空中读新闻更新,就像他们在广播中所做的一样。
"我认为到目前为止,我们只是使用AI重新整理我们之前已知的东西,但很快我们会看到突破性的新可能,"他说。"我认为通过精心选择的产品,可以获得巨大的投资回报,但大语言模型的全面使用,你必须非常非常谨慎。"
Q&A
Q1:大语言模型为什么需要伴侣系统?
A:因为大语言模型受计算边界限制,当突破这些边界时会产生幻觉。伴侣系统可以验证大语言模型的工作,确保输出的正确性。就像谷歌AlphaFold用Evoformer生成候选蛋白质,然后用另一个系统检查配置缺陷一样。
Q2:Vianai的Hila产品是如何工作的?
A:Hila将大语言模型与特定领域的知识模型结合,用护栏和经过验证的可靠方法围绕大语言模型。这样Hila能够执行关键任务,比如将财务报告从20天人工劳动减少到5分钟,并且不会犯错误。
Q3:为什么说现在的AI仍处于早期阶段?
A:根据Sikka的观察,这是他职业生涯中第四次AI狂热,MIT研究显示95%的AI项目失败。目前我们只是用AI重新整理已知事物,就像电视新闻早期主播读新闻一样,还没有真正突破性的新应用。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。