加州大学欧文分校计算机科学家Peter Burke近日展示了一项突破性研究:机器人可以利用生成式AI模型和硬件系统为自己编程"大脑"。
在这项名为"机器人构建机器人大脑:AI生成的无人机指挥控制站空中托管系统"的研究中,Burke教授使用了两种"机器人"定义:一种是运行在本地笔记本电脑和云端的各种生成式AI模型,负责编程;另一种是配备Raspberry Pi Zero 2W的无人机,作为运行控制系统代码的服务器。
Burke的创新在于展示生成式AI模型可以通过提示词编写创建实时、自托管无人机地面控制站(GCS)所需的全部代码。更准确地说是WebGCS,因为代码在无人机上的Raspberry Pi Zero 2W卡上运行Flask网络服务器。无人机在空中时可以托管自己的AI编写的控制网站,通过互联网访问。
该项目采用了多轮开发冲刺,使用了多种AI模型(Claude、Gemini、ChatGPT)和AI集成开发环境(VS Code、Cursor、Windsurf)。每个模型都在实现不断演进的功能集方面发挥了作用。
初始冲刺专注于使用浏览器中的Claude编写地面GCS。包含以下提示词:
"编写Python程序,向Raspberry Pi上的飞行控制器发送MAVLink命令。告诉无人机起飞并在50英尺高度悬停。"
"在Pi上创建一个网站,带有按钮,点击后使无人机起飞悬停。"
"现在为网页添加功能。添加显示无人机位置的地图。使用MAVLink GPS消息在地图上放置无人机。"
"现在添加以下功能:用户可以点击地图,网页将记录用户点击地图位置的GPS坐标,然后通过MAVLink向无人机发送'引导模式'飞行命令。"
最初的尝试遇到了挑战。Claude在约12个提示词后停止工作,因为对话消耗的Token超过了上下文窗口限制。随后使用Gemini 2.5和Cursor的尝试也遇到问题。最终使用Windsurf的第四次冲刺获得成功。
AI生成的WebGCS耗费约100小时人工劳动,历时2.5周,产生了10000行代码。这比Burke估计创建类似项目Cloudstation所需时间少约20倍。
研究观察发现,当前AI模型无法处理超过10000行的代码。Burke引用最近研究显示,当上下文长度从32K增加到256K Token时,Claude 3.5 Sonnet在LongSWEBench上的准确率从29%下降到3%。
空间数据公司Geolava的CEO Hantz Févry表示,这个无人机项目令人着迷:"无人机系统通过生成式AI自主搭建自己的指挥控制中心的想法不仅雄心勃勃,而且与前沿空间智能的发展方向高度一致。"他同时强调应该设置严格的安全检查和边界。
研究论文指出,在无人机项目期间保持了人工控制的冗余发射器,以防需要手动干预。
Févry认为这些系统的出现标志着航空成像业务的转变:"航空成像变得更加容易获取。自主捕获不再是奢侈品,而是空间AI的基础。"
他表示,这些系统的真正考验将是生成式AI系统如何处理对抗性或模糊环境:"在模拟或先验假设中搭建控制回路是一回事,在地形、任务目标或系统拓扑在飞行中发生变化时进行适应则是另一回事。但长期影响是重大的:这种工作预示着通用自主性,而不仅仅是特定任务的机器人技术。"
Burke在论文开头提到《终结者》电影,并在结尾表达了希望"终结者的结局永远不会发生"的愿望。
Q&A
Q1:生成式AI如何帮助机器人实现自主编程?
A:生成式AI模型通过接收特定提示词,可以自动编写创建无人机地面控制站所需的全部代码。在Burke的研究中,AI模型生成了10000行代码,创建了可以在空中自托管的控制网站,无人机可以通过互联网访问这个AI编写的控制系统。
Q2:这项无人机自主编程技术有什么实际应用价值?
A:该技术将航空成像变得更加容易获取,自主捕获已成为空间AI的基础。系统可以实现传感、规划和推理的近实时融合,大大提高了环境感知和理解能力,为通用自主性而非特定任务机器人技术奠定基础。
Q3:当前AI模型在代码生成方面有什么局限性?
A:研究发现当前AI模型无法处理超过10000行的代码。当上下文长度从32K增加到256K Token时,Claude 3.5 Sonnet的准确率从29%下降到3%。此外,AI系统在处理对抗性或模糊环境,以及应对飞行中地形、任务目标变化方面仍面临挑战。
好文章,需要你的鼓励
SAP S/4HANA内存ERP系统推出十多年后,95%的传统用户表示构建积极的迁移案例需要巨大努力或面临真正挑战。一项涵盖455名CIO、高级IT角色、SAP专家和业务经理的调查发现,83%的受访者不完全理解SAP最新的迁移政策和截止日期,84%对当前信息传递及其对运营的影响表示担忧。SAP为传统ECC系统设定了激进的支持截止日期,主流支持将于2027年结束。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
微软通过其Planetary Computer平台将NASA的Landsat和Sentinel-2卫星数据集引入Azure云服务。该数据集包含来自NASA的Landsat 8、9号卫星以及欧洲航天局Sentinel-2系列卫星的地球监测数据,为气候变化、土地利用、农业应用等研究提供宝贵资源。用户可通过API或Azure存储直接访问这些PB级全球环境数据。微软还建议研究人员使用Azure OpenAI服务创建智能应用,结合AI技术进行土地分类、植被监测、森林砍伐趋势分析等地球观测研究。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。