地球观测卫星首次在无需地面人工分析师参与的情况下,独立完成了目标识别任务。这一里程碑事件发生于今年4月,标志着视觉语言模型首次被证实应用于在轨运行的卫星,同时也预示着AI技术可能从根本上改变天基传感器的能力边界与应用价值。
传统模式与技术突破
通常情况下,卫星会将大量原始数据下载至地面,再由分析师借助机器学习算法或人工目视判读来提取有效信息。而这一次,搭载于Loft Orbital公司所建造的Yam-9飞行器上,NASA喷气推进实验室(JPL)开发的一套软件系统,直接根据自然语言查询指令,在轨道上完成了感兴趣区域的自动识别。
驱动本次演示的视觉语言模型(VLM)正是谷歌DeepMind的Gemma 3。该模型专为边缘计算场景设计,能够在远离数据中心的有限硬件上高效运行。视觉语言模型将大语言模型的语境理解能力与图像分析能力相结合。研究人员向模型提出了具体任务——例如,识别自然环境与人类建设活动的交界区域,或定位铁路枢纽周边的基础设施——模型均成功完成了分类与识别。
双重意义:近期价值与长远影响
此次演示具有两层重要意义。就近期而言,通过在轨完成初步数据筛选,可以大幅减少地面分析师需要处理的原始数据量,显著提升天基传感器的实用价值;从长远来看,这是在太空部署更大规模AI计算基础设施可行性的有力验证。
Loft公司AI负责人Paul Lasserre在接受TechCrunch采访时表示:"这为太空中常态化、持续巡查的监测体系打开了大门。有了视觉语言模型,你可以赋予系统逻辑判断能力——比如'帮我监控这段边界,一旦发现可疑情况立即通知我'——并实现与卫星之间的双向交互。"
平台化运营与商业模式
Loft的飞行器被定位为面向第三方客户的开放平台,其商业模式更接近基础设施即服务(IaaS),而非传统的卫星制造。近期,Loft与EarthDaily达成合作协议,负责建造、发射并运营六颗新卫星,由EarthDaily对卫星采集的数据进行分析与商业化运营。Yam-9于2025年秋季发射,是Loft在轨AI项目的先导验证星,搭载了英伟达Jetson Orin AGX GPU——这是目前太空计算领域的主流芯片之一。
NASA JPL AI团队技术负责人Juan Delfa Victoria主导开发了NAVI-Orbital软件包,该软件包实质上是Gemma 3视觉语言模型的运行框架。尽管Gemma 3本身是现成的商用模型,工程师们仍需对软件包进行精简优化,以降低其对运行库资源和内存的占用。
行业跟进与未来方向
尽管Yam-9是目前已知首个在轨使用视觉语言模型的案例,预计其他企业也将陆续跟进。Planet Labs旗下的卫星同样搭载了Jetson Orin处理器,目前主要用于较为简单的目标检测任务,但该公司发言人透露,包括视觉语言模型在内的更多AI应用正处于研究推进之中。
运营着目前太空中最大GPU集群的Kepler Communications,以合作协议保密条款为由,拒绝披露是否已在太空中部署视觉语言模型,但表示自旗下飞行器于1月发射以来,计算环境已有"若干未公开的应用案例"。
Paul Lasserre表示:"既然概念已经得到验证,这就是未来的发展方向。"他的目标是扩建卫星星座,实现对全球任意地点的实时覆盖——据估算,这需要50至100颗与Yam-9同级别的卫星(Loft目前在轨运营12颗)。
在轨部署小型模型积累的工程经验,将为未来在太空中部署更大规模计算基础设施提供参考,尤其在功耗管理与内存优化等关键领域。
航天员助手:更远的畅想
这一切还可能为新型科学工具的诞生铺平道路。NAVI-Space项目的构想,最初源于JPL研究员Taran Cyriac John对月球或火星探索中航天员数字助手的思考。
"我们在想,航天员穿着加压航天服,根本无法使用键盘,而他们需要处理的任务又极为复杂,"Delfa Victoria说,"那么,何不为他们提供一个智能助手——就像游戏和电影里那种可以交互的AI形象?"
当然,请别把它叫做HAL 9000。
Q&A
Q1:Yam-9卫星上搭载的视觉语言模型是什么,它具体能做哪些事?
A:Yam-9搭载的是谷歌DeepMind开发的Gemma 3视觉语言模型,该模型专为边缘计算场景设计,能够在算力有限的卫星硬件上运行。它将大语言模型的语言理解能力与图像分析能力结合,可根据自然语言指令完成遥感数据分类,例如识别自然与人类建设活动的交界地带,或定位铁路枢纽周边的基础设施,无需地面分析师介入即可自主完成任务。
Q2:卫星在轨自主识别目标对实际应用有什么意义?
A:意义主要体现在两个层面。短期内,卫星可在轨完成初步数据筛选,大幅减少需要下传至地面的原始数据量,降低分析师的处理负担,提升响应效率。长远来看,这是在太空部署更大规模AI计算基础设施的重要验证,未来有望实现对全球任意地点的实时、持续监测,并支持与卫星之间的双向交互指令传达。
Q3:除Loft Orbital之外,还有哪些公司在推进卫星AI计算能力?
A:目前多家公司正在跟进相关研究。Planet Labs的卫星同样搭载了英伟达Jetson Orin处理器,目前用于目标检测,视觉语言模型的研究也在推进中。Kepler Communications运营着目前太空中最大的GPU集群,已有多个未公开的计算应用案例,但具体是否部署了视觉语言模型,因保密协议暂未披露。
好文章,需要你的鼓励
Databricks在旧金山Data + AI峰会上推出多项重磅产品,包括支持AI智能体实时访问数据湖的Lake TAP架构、毫秒级查询引擎Reyden,以及具备持续学习能力的Genie One智能平台。CEO Ali Ghodsi表示AGI已经到来,当前核心挑战在于如何将其真正融入企业运营。Databricks还宣布收购AI安全平台Panther Labs,并推出Unity AI Gateway用于企业AI治理与成本管控。
这篇综述系统梳理了让AI智能体理解世界运转规律的"文本世界模型"研究,覆盖构建方法、训练应用、推理部署与评估体系,是该领域首个完整框架性回顾。
谷歌Wear OS 7已开始向Pixel Watch设备推送,此次更新带来最高10%的续航提升、实时通知Live Updates及跨设备音频控制功能。更值得关注的是,谷歌正将智能手表定位为其AI生态系统的核心枢纽,与智能眼镜、耳机等设备深度联动。Gemini AI功能将于年内陆续上线,包括自然语言生成表盘和跨应用多步操作。此外,重塑后的Fitbit应用引入AI健康教练,但用户生物特征与医疗数据的隐私保护问题仍是谷歌面临的重大挑战。
本文介绍FlowTracer,一种通过追踪AI注意力信息流来精准分配强化学习信用的框架,可识别推理骨干节点,在多种数学和推理任务上显著提升AI表现。