在OpenAI于2022年发布ChatGPT并引起公众广泛关注之前,人工智能一直在研究实验室中悄然发展,并在科学会议上被讨论。虽然企业界目前的注意力主要集中在智能体和重塑企业生产的巨大期望上,但一群工程师和科学家一直在研究下一步的发展方向。
在湾区机器学习研讨会(BayLearn)上,演讲者们提供了未来发展的线索。这是一个来自硅谷各地的高级科学家和工程师的年度聚会。今年的活动由圣克拉拉大学工程学院于周四主办,让人们得以一窥一些人工智能领域领军人物如何设想该技术的未来影响,因为公司和研究实验室正在完善他们的人工智能方法。
"我们不仅仅是在构建系统,我们还在思考系统试图解决的根本问题,"英伟达公司应用深度学习研究副总裁Bryan Catanzaro在会议演讲中说道。
英伟达的Nemotron推动加速计算
英伟达实现系统问题解决方法的重要组成部分涉及Nemotron,这是该芯片制造商的开源人工智能技术集合,旨在使人工智能开发在每个阶段都更加高效。这些技术包括多模态模型和数据集、预训练和后训练工具、精度算法以及在GPU集群上扩展人工智能的软件。
Nemotron是"神经模块"和变形金刚玩具系列中威震天角色的混成词,是英伟达加速计算愿景的核心。
"Nemotron确实是英伟达未来加速计算思考方式的基础部分,"Catanzaro说。"加速计算真正关乎专业化......以及做标准计算机无法做到的事情。加速计算远不止是一个芯片。"
英伟达还认为,人工智能的未来进步将由开源社区的贡献推动。在演讲后接受SiliconANGLE采访时,Catanzaro指出Meta平台公司、中国的阿里巴巴集团和DeepSeek都参与了Nemotron项目。
"有很多很棒的贡献,"Catanzaro说。"Nemotron数据集正在被所有人使用。"
Catanzaro为人工智能的进步做出了自己独特的贡献。正如Stephen Witt关于英伟达崛起的书《思维机器》中所记录的,创始人兼首席执行官黄仁勋将公司转向人工智能的关键决定可以追溯到他与Catanzaro的互动,后者认为深度学习是人工智能未来的关键。
在与SiliconANGLE的对话中,Catanzaro描述了他在现场可编程门阵列(FPGA)方面的工作如何让他欣赏英伟达基于GPU的CUDA计算架构的速度。他对该技术如何应用于人工智能很感兴趣,并在2013年与黄仁勋讨论了其在机器学习中的应用。
"我看到了这一点,认为英伟达为CUDA带来的编程有些特别,"Catanzaro说。"当时,CUDA并不太专注于机器学习。它专注于高性能计算。那段旅程非常令人兴奋......其余的就是历史了。"
实现交互式人工智能
人工智能发展和崛起的历史也要归功于计算机科学家如Christopher Manning教授的影响。作为自然语言处理(NLP)领域的知名专家,Manning提醒BayLearn与会者,20多年前,当计算语言学协会会议上展示了33篇人工智能论文时,大语言模型甚至不在许多科学家的视野中。
斯坦福大学的Christopher Manning教授在BayLearn会议上谈论了他的NLP研究和人工智能。
"1993年有多少大语言模型论文?"Manning问道。"零篇。没有后见之明,真的很令人惊讶没有人在谈论语言模型。我们显然可以而且应该更早推动大语言模型。人们不相信大语言模型会有用。"
然而,事实证明有用的是基于人工智能应用的自然语言能力。Manning在斯坦福大学的研究为深度学习在NLP中的应用铺平了道路,这已成为人工智能在当今广泛应用中增长和使用的基础。
Manning是斯坦福人类中心人工智能研究所的创始人和副主任,他对当前专注于人工智能以获得立即结果的做法表示沫丧,这种做法忽略了该技术通过与周围世界的互动而变得更好的潜力。
"大语言模型根本不能交互式工作,"Manning说。"人类可以用比我们当前模型少几个数量级的数据来学习。我们的人类学习比机器学习更好。"
根据Manning的观点,解决方案是系统性泛化,这是人工智能模型超越当前行业解决方案的能力,这些解决方案用数据塞满模型,进入智能体可以通过互动学习的世界。目标是创建将已知元素组合成新含义的人工智能模型。这将涉及构建一个通过"浏览网站"学习的系统,根据Manning的说法,通过探索变得更好。
"在合理程度上,强力(数据)确实有效,但这不是人类的工作方式,"Manning指出。"我们需要更高效的模型,可以实现系统性泛化。"
新的机器学习和机器人工具
对系统性泛化的追求将需要新的人工智能框架,这些框架能够在计算网络上更高效地运行。苹果公司正在研究这样的解决方案,通过增强MLX——苹果芯片的机器学习软件。
这个开源机器学习框架是苹果为Mac计算机开发的。MLX在近两年前发布,可以将高级Python代码转换为优化的机器代码。报告表明,苹果还在与英伟达合作,为MLX添加CUDA后端支持,作为其减少构建机器学习框架成本努力的一部分。
"我们认为这是构建针对硬件定制的机器学习软件的机会,"苹果研究科学家Ronan Collobert在BayLearn聚会上说。"我们必须从系统角度思考如何可靠地部署人工智能。"
对于普通消费者来说,工程师对机器学习框架和编码支持的热情可能不会产生影响。然而,人工智能的进步也在以可能很快在我们周围的世界中变得更加可见的方式改变机器人世界。
谷歌公司的DeepMind研究部门一直在努力开发旨在使机器人更智能的模型。上个月,该公司发布了其Gemini Robotics 1.5和E.R. 1.5模型,这些模型体现了推理能力,帮助机器人真正思考。
DeepMind的方法是之前为机器人配备执行单一任务的能力,比如折叠一张纸。现在它们能够执行更高级的功能,比如根据预测的天气条件选择合适的衣服。
根据谷歌DeepMind研究副总裁Ed Chi的说法,人工智能正在推动通用机器人领域的进步,机器可以根据简单的自然语言提示拾起物品并扔掉。这迫使工程师重新思考人工通用智能(AGI)使机器人能够理解、学习并在无限范围的人类任务中应用知识的宏伟愿景。
"当我没有一个能清洁我房子的机器人时,我厌倦了所有关于AGI的谈论,"Chi在会议小组会议期间说。"我们现在在机器人技术方面取得的巨大进步是在通用机器人领域。这已经足够好了。"
"足够好"确实可能成为人工智能领域开发者的口号,因为进步以光速发展,企业继续要求立即见效。人工智能正在以令即使是最有经验的从业者都感到震惊的速度推动社会和经济变革。然而,也有一种信念认为,随着人工智能能力的持续改善,影响将是巨大的。
"我们目前生活在一个绝对非凡的时代,"斯坦福的Manning说。"我们正走在一条将持续进步的道路上。我们将在这项技术的发展中经历一段疯狂的旅程。"
Q&A
Q1:Nemotron是什么?它在英伟达的发展战略中扮演什么角色?
A:Nemotron是英伟达的开源人工智能技术集合,旨在使人工智能开发在每个阶段都更加高效。它包括多模态模型和数据集、预训练和后训练工具、精度算法以及在GPU集群上扩展人工智能的软件,是英伟达加速计算愿景的核心基础部分。
Q2:大语言模型为什么没有在早期得到重视?
A:据斯坦福大学Manning教授介绍,20多年前在计算语言学协会会议上,1993年关于大语言模型的论文数量是零。当时人们不相信大语言模型会有用,这种不信任导致研究者没有更早推动大语言模型的发展。
Q3:谷歌DeepMind在机器人技术方面取得了什么突破?
A:谷歌DeepMind发布了Gemini Robotics 1.5和E.R. 1.5模型,使机器人具备推理能力和真正的思考能力。机器人从之前只能执行单一任务(如折纸)发展到现在能够执行更高级功能,比如根据天气预测选择合适衣服,甚至能根据自然语言提示拾取和丢弃物品。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。