随着人工智能技术的不断发展,其应用场景日益丰富,各行各业所汇聚的庞大数据资源为技术的实际应用和持续完善提供了坚实基础。 根据第三方咨询机构格物致胜的统计数据,2022年中国人工智能市场规模达到2058亿元,预计2023-2027年市场规模将保持28.2%的 复合增长率,2027年中国人工智能市场规模将达到7119亿元。根据statista的统计数据,2023年全球人工智能市场规模达2079亿美元, 预计2030年将增至18475亿美元。
多模态技术成为大模型主战场
多模态较单一模态更进一步,已经成为大模型主战场。人类通过图片、文字、语言等多种途径来学习和理解,多模态技术也是通过整 合多种模态、对齐不同模态之间的关系,使信息在模态之间传递。
2023年以来,OpenAI发布的GPT-4V、Google发布的Gemini、 Anthropic发布的Claude 3均为多模态模型,展现出了出色的多模态理解及生成能力。未来,多模态有望实现any to any模态的输入和 输出,包括文本、图像、音频、视频、3D模型等多种模态。
多模态大型语言模型(MLLMs)的通用架构,由1) 视觉编码器(Visual Encoder)、2) 语言模型(Language Model)和3) 适配器模块 (Adapter Module)组成。1) 负责处理和理解输入的视觉信息,通常使用预训练的视觉模型,如Vision Transformer(ViT)或其他卷积神 经网络(CNN)架构,来提取图像特征;2) 负责处理文本输入,理解和生成自然语言,语言模型基于Transformer架构,如BERT或GPT 系列模型;3) 负责在视觉和语言模态之间建立联系。
3D生成:AI生成技术的下一个突破口
3D生成技术应用广阔,但仍处在技术临界点以前。3D生成技术可广泛应用于3D虚拟人、3D人脸、3D场景等领域,目前3D生成的主 流技术路径大致可分为:1) text-to-2D,再通过NeRF或Diffusion模型完成2D-to-3D,或直接通过2D素材完成3D建模;2) 直接text-to- 3D,该路径直接使用3D数据进行训练,从训练到微调到推理都基于3D数据。
具身智能:智能涌现从虚拟世界走向物理世界
当大模型迁移到机器人身上,大模型的智能和泛化能力有望点亮通用机器人的曙光。2023年7月,谷歌推出机器人模型Robotics Transformer 2(RT-2),这是一个全新的视觉-语言-动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的 通用指令。2024年3月,机器人初创企业Figure展示了基于OpenAI模型的全尺寸人形机器人Figure 01,机器人动作流畅,所有行为都 是学到的(不是远程操作),并以正常速度(1.0x)运行。
通用人工智能还有多远
通用人工智能(Artificial General Intelligence, AGI)是一种可以执行复杂任务的人工智能,能够完全模仿人类智能的行为。DeepMind提出了 一个衡量“性能”和“通用性”的矩阵,涵盖从无人工智能到超人类AGI(一个在所有任务上都优于所有人的通用人工智能系统)的五个 级别。性能是指人工智能系统的能力与人类相比如何,而通用性表示人工智能系统能力的广度或其达到矩阵中指定性能水平的任务范围。
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。