英国自动驾驶技术初创公司Wayve联合创始人兼首席执行官、剑桥大学计算机视觉与机器人学博士亚历克斯·肯德尔(Alex Kendall)参加了剑桥大学的演讲,在演讲中,肯德尔强调,具身智能技术能够将智能机器融入物理世界,有望彻底改变各行各业;自动驾驶作为具身智能的前沿应用,不仅能够带来社会利益,也是实现全球可扩展AI系统的关键路径。

具身智能可以通过物理形式与人类及环境进行互动,从而在实质上改善我们的日常生活。他强调,工具的发展是人类区别于地球上其他物种的关键因素,从简单的棍棒和矛,到复杂的计算机和X光机,这些工具极大地提升了我们的生活水平。具身智能将工具的概念从简单的物理装置转变成为智能工具,这些工具不仅提供物理上的帮助,还能够以智能的方式与人类互动,在某些情况下,人类甚至可以信任并委托这些工具来执行任务。
具身智能有四个关键要素,第一要素是智能。他强调,具身智能工具必须具备足够的智能,以便在实际应用中为人类提供价值,这些工具不仅能够执行任务,还能够以一种增强人类能力和提高效率的方式进行操作;信任是第二个要素,要使人们广泛接受和使用具身智能技术,这些系统必须确保在所有情况下都能可靠地执行其功能;简单性是第三个要素,具身智能技术需要能够轻松地融入现有的社会结构和日常生活中,而不需要进行大规模的调整或投资,用户也无需专业的技术知识就能与之互动,就像使用人类语言一样自然;最后,规模是具身智能成功的决定性因素,这些系统需要可以被不同地区、不同经济水平的人们所使用,它能够适应不同文化和环境的需求,从而实现真正的全球普及。
认知AI和具身智能之间的区别方面,肯德尔解释道,认知AI处理的是知识检索、搜索和推理任务,这些系统通常依赖于大量的数据,这些数据包括文本、音频、视频等多种形式,使得认知AI能够处理多模态信息。相比之下,具身智能则涉及到与物理世界的直接交互,这些系统需要处理的数据量巨大,且具有低信噪比。
在推理和安全性方面,具身智能系统需要在计算和能源受限的边缘设备上运行,在安全性等方面受到严格的监管,而认知AI则没有这种限制,在安全性监管方面还较为宽松;在评估方面,认知AI越来越多地通过红队测试和人工标注来进行评估,具身智能则可以利用现实世界的丰富性,通过模拟来形成数据驱动的测试,包括那些在现实世界中很少见或太危险而无法实际体验的场景。

肯德尔认为,我们生活在一个物理世界中,大多数经济价值高的工作都是通过物理交互来完成的,因此,如果要构建能够真正支持和加速我们工作的智能工具,那么这些工具就需要能够在物理世界中进行交互。目前的AI系统,特别是那些仅通过文本训练的系统,尚未展现出空间理解、推理和导航等空间属性,如果我们能够训练这些系统在物理世界中进行导航和交互,那么这些空间属性就会自然而然地出现。
从神经科学的角度来看,我们的大脑之所以存在,唯一的原因就是用来产生适应性强和复杂的运动能力,在动物界中,当不需要运动和交互时,智能就会消失。智能的终极目标是在世界中做出决策并进行交互,而交互和反馈的能力,以及好奇心驱动的探索,是认知发展的关键部分。肯德尔认为,虽然AI可能有所不同,但交互的力量可能会产生比单纯观察更有效的学习效果,因此,他认为具身智能是实现通用人工智能(AGI)的关键。
自动驾驶作为具身智能的前沿应用,有潜力极大地减少交通事故,提高交通效率,并增强可持续性。全球每天有大约4000人因道路事故丧生,而其中超过99.6%的事故是由人为错误引起的,自动驾驶技术通过减少这些由人为因素引起的事故,有机会将事故率降至接近零,从而显著提高道路安全。此外,自动驾驶车辆还可以减少因交通事故导致的经济损失,这些损失在全球一些国家的GDP中占比高达1.5%。一般的车辆,平均只有大约3%的时间在使用中,而自动驾驶技术能够更高效地利用车辆,将这一比例提高到60%、70%甚至80%。效率的提升还将减少对停车空间的需求,从而释放出大量城市空间,在城市中,停车占用的空间是巨大的,如伦敦的停车场面积是海德公园的10倍。

肯德尔还介绍了几个他在具身智能领域的一些前沿工作。首先是Gaia,这是一个能够生成新内容的世界模型。该模型可以创建图像、场景以及其中的交互,还能够模拟出不同的天气条件、光照条件,甚至可以生成特定的交通场景,尤其是在测量和安全方面,它们能够模拟出在现实世界中过于罕见或危险的场景。
其次是Lingo,这是一个结合了视觉、语言和行动的模型。Lingo能够将认知模型中的语言和视觉结合起来,并加入行动的维度,这样的系统可以提供更自然的交互方式,提高系统的可访问性。最后是Prism,这是一个能够以照片级的准确性再现场景的系统。Prism通过使用先进的仿真技术,能够创建出极其真实的场景,该技术可以在一个控制的环境中模拟出复杂的现实世界情况,这对于测试和验证具身智能系统的行为至关重要。
在创业经历分享方面,肯德尔提到了追求最难挑战的重要性。他认为,通过首先解决最困难的问题,可以确保团队的工作具有前瞻性和挑战性,这种做法不仅能够激发团队的潜力,还能够吸引和保留最优秀的人才,共同推动技术的发展。此外,通过解决最难的问题,可以确保团队的工作与未来的发展趋势保持一致,从而在技术发展中占据有利位置。

数据驱动系统的优越性是另一个重点,尤其是那些能够从大量数据中学习的系统,往往能够超越手工设计的解决方案。这些系统能够通过自我监督学习循环,接触到海量的数据,从而产生令人难以置信的结果。肯德尔认为,这种数据驱动的方法不仅适用于自动驾驶车辆的操作,也适用于模拟系统和测量系统,以及其他支持技术的发展。
跨学科工作的重要性方面,他认为,具身智能是一个高度跨学科的领域,涉及到机械、电气、软件工程、公共政策、法律、法规以及基础设施等多个方面。这种跨学科的合作不仅能够激发创新,还能够带来更广泛的视角和解决方案,从而推动技术的发展。最后,他呼吁对安全和效率这两个尚未解决的技术问题进行更多的研究和开发,这两个问题是目前具身智能领域中最为关键的技术挑战,需要行业内外的共同努力来解决。
肯德尔提到,认知AI已经发展到了商业应用阶段,而具身智能则是一个全新的领域,目前正处于起步阶段,它像一个蓝色的海洋,充满了未被开发的潜力和机会。在这个领域工作的人们将有机会参与到从零开始构建技术的过程中,他呼吁那些对这些挑战感兴趣、有激情和有能力的人加入到这个领域中来,共同推动具身智能技术的发展。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。