8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称“空天院”)发布了首个面向跨模态遥感数据的生成式预训练大模型“空天.灵眸”(RingMo,Remote Sensing Foundation Model)。
“空天.灵眸”大模型现场发布图
“空天.灵眸”大模型是空天院联合北京昇腾人工智能生态创新中心技术团队,基于成都智算中心的昇腾AI的澎湃算力训练而完成。在昇腾AI基础软硬件平台的支持下,尤其是依托昇思MindSpore AI框架原生支持大模型的能力,“空天.灵眸”大模型的并行训练及下游任务开发得以加速实现,已在8个国际标准数据集上达到领先水平,填补了跨模态生成式预训练模型在遥感领域的空白。
在模型设计、模型训练、推理优化等方向均进行了独特的技术创新,“空天.灵眸”大模型
深入结合光学、SAR(合成孔径雷达)等跨模态遥感数据的成像机理和目标特性,并在场景分类、检测定位、细粒度识别、要素提取及变化检测等典型下游任务中得到有效验证。
总体来看,“空天.灵眸”大模型具备如下四大亮点:
(1)以遥感特性为研发驱动
不同于现有遥感预训练模型大都采用有监督或者对比式学习的模式,基于昇腾AI的“空天.灵眸”大模型依托掩膜自编码结构,是面向复杂场景且更具通用表征能力的遥感生成式自监督预训练模型。
由于采用的是ViT和Swin Transformer等Transformer类骨干网络,该大模型可对遥感数据的局部和全局特征的依赖关系进行有效建模,并结合目标特性引导的自监督学习方法,通过引入几何、电磁、目标结构等多特性约束,让遥感地物通用特征可被自动提取。
(2)拥有跨模态遥感数据集
为提升遥感预训练模型的特征表达能力,“空天.灵眸”大模型的数据集包含了200多万幅分辨率为0.1m到30m的遥感影像,分别来源于中国遥感卫星地面站、航空遥感飞机等平台,以及高分系列卫星、吉林卫星、QuickBird卫星等。
同时,在数据集中包含了1亿多具有任意角度分布的目标实例,覆盖全球150多个典型城市、乡镇以及常用机场、港口等场景。所用样本数据具备遥感专业特色,且整个样本集都无需标注,能大幅节省训练数据标注成本。
(3)具备应用任务泛化能力
“空天.灵眸”大模型具备遥感数据理解、复原能力,可实现对跨模态遥感数据的共性语义空间进行表征。
针对不同的下游任务仅需修改预测头部网络,即可灵活快速迁移到不同领域的下游任务中,进行简单微调后可适应多目标细粒度分类、小目标检测识别、复杂地物提取等任务。
(4)广泛的产业应用方向
从目标检测识别、地物要素分类等任务的实测比较看,相对于业界通用的视觉模型,“空天.灵眸”大模型对遥感数据应用效果的提升是显著的。
可预见,在未来,基于昇腾AI的“空天.灵眸”大模型的应用不止于在三维重建等领域,或将进一步推广至国土资源、交通、水利等更多行业,为天临空地一体化应用提供整套解决方案。
“空天.灵眸”大模型的相关成果已在遥感领域顶刊《IEEE Transactions on Geoscience and Remote Sensing》上公开发表。
相关论文信息:
Xian Sun, Peijin Wang, Wanxuan Lu, Zicong Zhu, Xiaonan Lu, Qibin He, Junxi Li, Xuee Rong, Zhujun Yang, Hao Chang, Qinglin He, Guang Yang, Ruiping Wang, Jiwen Lu, Kun Fu*. "RingMo: A Remote Sensing Foundation Model with Masked Image Modeling," in IEEE Transactions on Geoscience and Remote Sensing, 2022, doi: 10.1109/TGRS.2022.3194732.
好文章,需要你的鼓励
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
通用汽车宣布计划于2028年推出自动驾驶系统,允许驾驶员双眼离开道路、双手离开方向盘,首先应用于凯迪拉克Escalade IQ。该系统基于现有Super Cruise技术,采用激光雷达、雷达和摄像头感知技术,初期在高速公路使用。通用整合了已关闭的Cruise子公司的技术栈,包括基于500万英里无人驾驶数据训练的AI模型。目前美国仅奔驰拥有商用L3级自动驾驶系统。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。