加州大学欧文分校计算机科学家Peter Burke近日展示了一项突破性研究:机器人可以利用生成式AI模型和硬件系统为自己编程"大脑"。
在这项名为"机器人构建机器人大脑:AI生成的无人机指挥控制站空中托管系统"的研究中,Burke教授使用了两种"机器人"定义:一种是运行在本地笔记本电脑和云端的各种生成式AI模型,负责编程;另一种是配备Raspberry Pi Zero 2W的无人机,作为运行控制系统代码的服务器。
Burke的创新在于展示生成式AI模型可以通过提示词编写创建实时、自托管无人机地面控制站(GCS)所需的全部代码。更准确地说是WebGCS,因为代码在无人机上的Raspberry Pi Zero 2W卡上运行Flask网络服务器。无人机在空中时可以托管自己的AI编写的控制网站,通过互联网访问。
该项目采用了多轮开发冲刺,使用了多种AI模型(Claude、Gemini、ChatGPT)和AI集成开发环境(VS Code、Cursor、Windsurf)。每个模型都在实现不断演进的功能集方面发挥了作用。
初始冲刺专注于使用浏览器中的Claude编写地面GCS。包含以下提示词:
"编写Python程序,向Raspberry Pi上的飞行控制器发送MAVLink命令。告诉无人机起飞并在50英尺高度悬停。"
"在Pi上创建一个网站,带有按钮,点击后使无人机起飞悬停。"
"现在为网页添加功能。添加显示无人机位置的地图。使用MAVLink GPS消息在地图上放置无人机。"
"现在添加以下功能:用户可以点击地图,网页将记录用户点击地图位置的GPS坐标,然后通过MAVLink向无人机发送'引导模式'飞行命令。"
最初的尝试遇到了挑战。Claude在约12个提示词后停止工作,因为对话消耗的Token超过了上下文窗口限制。随后使用Gemini 2.5和Cursor的尝试也遇到问题。最终使用Windsurf的第四次冲刺获得成功。
AI生成的WebGCS耗费约100小时人工劳动,历时2.5周,产生了10000行代码。这比Burke估计创建类似项目Cloudstation所需时间少约20倍。
研究观察发现,当前AI模型无法处理超过10000行的代码。Burke引用最近研究显示,当上下文长度从32K增加到256K Token时,Claude 3.5 Sonnet在LongSWEBench上的准确率从29%下降到3%。
空间数据公司Geolava的CEO Hantz Févry表示,这个无人机项目令人着迷:"无人机系统通过生成式AI自主搭建自己的指挥控制中心的想法不仅雄心勃勃,而且与前沿空间智能的发展方向高度一致。"他同时强调应该设置严格的安全检查和边界。
研究论文指出,在无人机项目期间保持了人工控制的冗余发射器,以防需要手动干预。
Févry认为这些系统的出现标志着航空成像业务的转变:"航空成像变得更加容易获取。自主捕获不再是奢侈品,而是空间AI的基础。"
他表示,这些系统的真正考验将是生成式AI系统如何处理对抗性或模糊环境:"在模拟或先验假设中搭建控制回路是一回事,在地形、任务目标或系统拓扑在飞行中发生变化时进行适应则是另一回事。但长期影响是重大的:这种工作预示着通用自主性,而不仅仅是特定任务的机器人技术。"
Burke在论文开头提到《终结者》电影,并在结尾表达了希望"终结者的结局永远不会发生"的愿望。
Q&A
Q1:生成式AI如何帮助机器人实现自主编程?
A:生成式AI模型通过接收特定提示词,可以自动编写创建无人机地面控制站所需的全部代码。在Burke的研究中,AI模型生成了10000行代码,创建了可以在空中自托管的控制网站,无人机可以通过互联网访问这个AI编写的控制系统。
Q2:这项无人机自主编程技术有什么实际应用价值?
A:该技术将航空成像变得更加容易获取,自主捕获已成为空间AI的基础。系统可以实现传感、规划和推理的近实时融合,大大提高了环境感知和理解能力,为通用自主性而非特定任务机器人技术奠定基础。
Q3:当前AI模型在代码生成方面有什么局限性?
A:研究发现当前AI模型无法处理超过10000行的代码。当上下文长度从32K增加到256K Token时,Claude 3.5 Sonnet的准确率从29%下降到3%。此外,AI系统在处理对抗性或模糊环境,以及应对飞行中地形、任务目标变化方面仍面临挑战。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。