IBM与MIT携手开辟计算研究新篇章

IBM与MIT签署新协议,将原MIT-IBM Watson AI实验室更名为MIT-IBM计算研究实验室,将量子计算纳入研究范畴。实验室首任主任David Cox表示,量子计算正快速成熟,有望在未来数年内发挥强大作用,与AI的交叉融合前景令人期待。在大型语言模型领域,Cox还提出类摩尔定律的新趋势:模型能力密度持续提升,更小的模型将以更低成本实现同等能力。IBM的Mellea项目则致力于结合软件可靠性与AI灵活性,探索AI的下一个发展范式。

IBM近期与苏黎世联邦理工学院、伊利诺伊大学及麻省理工学院分别签署了新的合作研究协议。

短短数年间,生成式AI已从新奇事物演变为全球数百万人用于提升工作效率、激发创造力或处理重复性认知任务的实用工具。

David Cox以IBM麻省理工学院-IBM Watson AI实验室首任主任的身份,亲历了这段历史性变革。2017年IBM投资创建该实验室时,AI大多运行于人们生活的幕后,负责预测销售额、识别可疑信用卡交易和过滤垃圾邮件。

如今,AI已成为各界热议的焦点,甚至能够根据用户提示,以播客或其他任意形式生成对话内容。无论生成式AI最终是否能像互联网一样带来深远变革,它已从根本上改变了内容创作、软件开发乃至科学探索等诸多领域。

与此同时,新一轮技术革命正在酝酿,IBM与麻省理工学院也在积极拥抱这一变化。根据上周签署的新协议,实验室将把研究范围扩展至量子计算领域,并更名为MIT-IBM计算研究实验室,以体现其更广泛的研究方向。

十年前,IBM率先将量子计算机接入云端,此后不断突破里程碑。本周在Think大会上,量子中心超算的最新进展得到重点展示,包括涉及逾12,000个原子的蛋白质模拟,以及与药物研发和核聚变能源相关的研究成果。

随着量子计算迅速成熟为科研实用工具,这一时刻与IBM当年携手MIT创建实验室时颇为相似——彼时ChatGPT尚未问世,AI的潜力隐约可感却难以明见,数据整理和单一用途模型训练的繁琐工作限制了其大规模普及。

如今情形已截然不同。AI几乎渗透到日常生活的方方面面,新一轮计算范式转变也即将到来。目前主导IBM语言模型研究的Cox将与麻省理工学院的Aude Oliva共同带领实验室迈入新阶段。

为此,我们与Cox进行了深入交流,探讨实验室下一步的发展方向、产学研合作的成功之道,以及爵士钢琴如何成为他的创作出口与精神疏解方式。

实验室为何选择此时拓展至量子计算领域?

研究视野大幅拓展。量子计算正处于快速发展轨道,未来几年内将变得极为强大,我对其与AI的交叉融合前景持乐观态度。有一种常见误解认为,量子计算机在所有类型的计算上都比普通经典计算机快。实际上,对于我们日常使用计算机处理的大多数任务,很难超越现代CPU或GPU。但对于某些重要类别的问题,量子计算机能够提供经典计算机需要极长时间才能得出的解决方案。这意味着量子计算机的价值不仅仅在于"更快",而在于它开辟了全新的可能性空间,让那些经典计算需要数辈子时间才能完成的运算变得触手可及。

实验室创立之初,您是否预见到AI与量子将走向交汇?

我们知道两者之间会有交集,但这两项技术各自的发展速度都超出了我们最乐观的预期。实验室成立之初,我们有一些量子项目,大多停留在理论层面,但如今一切都变得具体可感。量子正在迈入"新"领域,它与AI的交汇令人振奋。

大语言模型的崛起如何改变了实验室的研究文化?

实验室早期,我们的工作更多带有探索性质,像是在各种技术方向上广撒网——包括生成式AI——播下可能日后开花结果的种子。如今,哪些押注奏效已一目了然。我们仍然进行探索性和逆向思维的尝试,但生成式AI已改变了整体格局,我们的研究方向也随之调整。我们将研究成果转化为产品的能力也发生了根本性变化,可以从我们的研究中清晰地看到通向用户和客户所使用技术的直接路径,这让我们的工作价值更加清晰可见。

并非所有产学合作都能取得如此成效,秘诀是什么?

有几个关键因素。最重要的是IBM在麻省理工学院校园内建立了实体研究存在。IBM还引入了真正懂行的专业人才。如果只是把钱丢过去,是行不通的——你必须有人在现场,并肩工作,让学生能够经常走动交流。十年期的承诺至关重要,因为这让我们有时间建立深厚的合作关系。一位麻省理工学院教授说,他喜欢与我们合作,因为我们能引导他去思考有趣的问题。新想法往往源于尝试解决他人从未攻克过的难题。我们有时能帮助麻省理工学院的同事发现他们此前从未考虑过的新问题,因为我们拥有不同的参照框架。从解决这些问题中获得的认知不必过于侧重应用,更多时候,所获得的洞见具有相当普遍的意义,在科学上本身就颇具价值。

是什么促使您离开哈佛大学的教职,加入IBM?

即使在我担任教授期间,AI研究就已越来越多地向产业界集中,原因在于研究所需的资源规模。此后这种趋势愈演愈烈。与其完全离开学术界,不如拥有一座连接两者的桥梁,这对我更有吸引力。我也被这个机会从零到一的特质所吸引。多年来我联合创办了几家公司,从无到有构建新事物所带来的成就感令人无比满足。同时,虽然实验室是新的,但许多方面对我来说并不陌生——我在麻省理工学院完成了博士学业,因此这也有几分回家的感觉。

您会建议今天的学生选择业界而非学术界吗?

我认为这并非非此即彼的选择。一些业界工作确实是单程票,但至少在我们这里,我们专注于推进技术前沿。从这里走出去的人,其作品集和简历对于获得教职都颇具竞争力,两者之间可以相当灵活地转换。即便是全职教授,也会选择去业界休假进修或以其他方式参与其中。

据说您从学会阅读就开始编程,这是怎么回事?

我父亲在DEC公司工作,在那个年代把一台电脑带回了家。那是一台DECmate,屏幕散发着荧光绿的磷光,深深吸引了我。那时能写的程序非常有限,全是文字界面,但正是这种限制让编程变得有趣,因为你必须想出聪明的解法才能让它做出有趣的事情。

您曾提到大语言模型领域正在出现一条类似摩尔定律的新规律,这是什么意思?

我们和其他人都注意到,语言模型的规模与能力之间存在一个相当规律的趋势:语言模型的"能力密度"随时间以可预测的节奏持续提升。简单来说,昨天700亿参数的模型,今天70亿参数就能达到同等能力。一年后,你可以构建一个规模缩小十倍、却与大模型同等能力的模型。在某个节点上,继续追求超大规模的竞争将变得得不偿失——赢得这场竞争代价高昂,而领先优势也转瞬即逝;身后总有一批更小的模型,以低得多的成本实现同样的效果,且时间差不过短短数月。

AI最终会更像软件吗?

AI模型令人惊叹,但它的不可预测性有时令人头疼,这一点与常规软件截然不同。我们希望找回从传统软件迁移到大语言模型时所放弃的部分计算机科学严谨性。软件有其原则——一致性、封装性、抽象性和形式化保证。当你的"程序"变成一段自然语言提示词,这些特性就消失了。你甚至无法在两个不同的大语言模型之间移植,因为没有人能精确描述它们之间的差异。我们现在可以用自然语言编写指令,这是以前做不到的,但我们认为可以将软件的可靠性与抽象性,与大语言模型带来的"魔力"结合起来。

兼顾软件的可靠性与AI的即兴"魔力"——这就是IBM Mellea项目背后的理念吗?

Mellea致力于构建一个类似系统编程的层级,供开发者贡献创意。你编写代码调用某个函数,这个函数可能会提示模型执行某项操作,或激活一个适配器,并自动解析结果。Granite库本质上就是这样的存在——它们是一组可供调用的函数,例如询问"我即将发送给用户的这个答案是否是幻觉"。该函数可能调用大语言模型来判断答案是否有误,或激活一个让模型自行判断的适配器。用户无需了解函数内部的运作机制,他们只需要以最低的成本获得正确答案。

据说您是一位严肃的爵士钢琴演奏者,您的创作过程是怎样的?

如果不是在创造前所未有的东西,我便提不起兴趣。我从四年级开始学钢琴,如果只是照谱演奏,我大概早就放弃了。爵士乐的乐谱只告诉你和弦走向和旋律,其余几乎一切都是即兴发挥。通常你演奏一遍主题旋律——他们称之为"头"——然后即兴演奏其余部分,大家轮流即兴,最后再演奏一遍主题,就此收尾。

这有点像大语言模型回应模糊提示词的方式!您有过职业演出经历吗?

高中时我曾在一个四重奏乐队演奏,其中两位成员后来成为职业音乐家。我虽然从未参加新英格兰音乐学院的招生试听,但曾为我们的贝斯手在试听时担任伴奏。另外两名成员则走上了科研之路。我记得父母问我:你确定要走科研这条路吗?难道不想追求自己的激情所在?我说,天哪,不!那是一种艰辛的生活,而我有很多其他兴趣。不过玩音乐很开心,最近我又开始大量弹琴了。

是为了放松吗?

说实话,有些天感觉更像是驱魔仪式。这是一种我必须去做的事,我自己也说不清楚为什么——不是百分之百清楚。更像是一种创伤后的宣泄。但确实,结束后我会感觉好多了。我无法完全用语言表达原因,但我隐约觉得,自己突然重拾音乐、重拾即兴演奏,与当下这个技术时刻有某种内在关联。空气中弥漫着某种东西,与创造有关。我不知道这一切通向何方,但我正在享受这段旅程。

Q&A

Q1:MIT-IBM计算研究实验室为什么要扩展到量子计算领域?

A:随着量子计算技术快速成熟,IBM与MIT认为现在是将量子纳入合作研究的最佳时机。量子计算并非对所有任务都更快,但对于某些特定类型的复杂问题,它能提供经典计算机几乎无法完成的解决方案。此外,量子与AI的交叉融合也展现出令人期待的潜力,因此实验室更名为MIT-IBM计算研究实验室,将研究范围正式扩展至量子领域。

Q2:大语言模型领域的"新摩尔定律"是什么意思?

A:IBM研究人员发现,语言模型的能力密度会随时间以可预测的节奏提升。简单来说,今年需要700亿参数才能达到的能力,明年用70亿参数的模型就能实现。这意味着一味追求超大规模模型的竞争策略性价比越来越低,因为总会有规模更小、成本更低的模型在短时间内追上来,实现同等效果。

Q3:IBM的Mellea项目想解决什么问题?

A:Mellea旨在将软件工程的严谨性与大语言模型的灵活性结合起来。传统软件具有一致性、封装性和形式化保证,但大语言模型缺乏这些特性,难以预测且无法跨模型移植。Mellea构建了一个类似系统编程的层级,开发者可以通过调用函数来触发模型行为或激活适配器,用户无需了解底层实现,只需获得可靠的结果,从而兼顾AI的能力与软件的可控性。

来源:IBM

0赞

好文章,需要你的鼓励

2026

05/14

15:56

分享

点赞

邮件订阅