当AI大模型开始尝试理解并预测物理世界的运动规律,一场深刻的范式变革正在发生。
2026年1月8日,北京智源人工智能研究院(以下简称“智源研究院”)发布年度报告《2026十大AI技术趋势》。报告指出,人工智能的演进核心正发生关键转移:从追求参数规模的语言学习,迈向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑。

开场致辞中,智源研究院理事长黄铁军分享了他的技术趋势观察:AI的发展要重视“结构决定功能,功能塑造结构”的相互作用。当前人工智能正从功能模仿转向理解物理世界规律,这一根本转变意味着AI正褪去早期狂热,其发展路径日益清晰,即真正融入实体世界,解决系统性挑战。

随后,智源研究院院长王仲远发布了十大AI技术趋势,详细阐释了这一变革。基础模型的竞争,焦点已从“参数有多大”转变为“能否理解世界如何运转”。他指出:我们正从 “预测下一个词”跨越到“预测世界的下一个状态”。这标志着以“Next-State Prediction”(NSP)为代表的新范式,正推动AI从数字空间的“感知”迈向物理世界的“认知”与“规划”。

报告认为,2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭。这一转变由三条清晰的主线驱动:
首先,是认知范式的“升维”。以世界模型和NSP为核心,AI开始学习物理规律,这为自动驾驶仿真、机器人训练等复杂任务提供全新的“认知”基础,成为国内外领先模型厂商竞相布局的战略高地。
其次,是智能形态的“实体化”与“社会化”。智能正从软件走向实体,从单体走向协同。头部科技公司的人形机器人正进入真实生产场景,标志着“具身智能”走出实验室。同时,主流Agent通信协议的标准化,让多智能体(MAS)能够以“团队”形式攻克科研、工业等复杂任务流。
最后,是价值兑现的“双轨应用”。在消费端,一个“All in One”的超级应用入口正在形成,国内外科技巨头基于各自生态积极构建一体化AI门户。在企业端,经历早期概念验证的“幻灭期”后,AI正凭借更好的数据治理与行业标准接口,在垂直领域孕育出真正可衡量商业价值的产品。

趋势1:世界模型成为AGI 共识方向,Next-State Prediction 或成新范式
行业共识正从语言模型转向能理解物理规律的多模态世界模型。从“预测下一个词”到“预测世界下一状态”,NSP范式标志着AI开始掌握时空连续性与因果关系。以智源悟界多模态世界模型为代表验证了这一路径,推动AI从感知走向真正的认知与规划。
趋势2:具身智能迎来行业“出清”,产业应用迈入广泛工业场景
具身智能正脱离实验室演示,进入产业筛选与落地阶段。随着大模型与运动控制、合成数据结合,人形机器人将于2026年突破Demo,转向真实的工业与服务场景。具备闭环进化能力的企业将在这一轮商业化竞争中胜出。
趋势3:多智能体系统决定应用上限,Agent 时代的“TCP/IP”初具雏形
复杂问题的解决依赖多智能体协同。随着MCP、A2A等通信协议趋于标准化,智能体间拥有了通用“语言”。多智能体系统将突破单体智能天花板,在科研、工业等复杂工作流中成为关键基础设施。
趋势4:AI Scientist 成为AI4S 北极星,国产科学基础模型悄然孕育
AI在科研中的角色正从辅助工具升级为自主研究的“AI科学家”。科学基础模型与自动化实验室的结合,将极大加速新材料与药物研发。报告强调,我国需整合力量,加快构建自主的科学基础模型体系。
趋势5:AI 时代的新“BAT” 趋于明确,垂直赛道仍有高盈利玩法
C端AI超级应用的“All in One”入口成为巨头角逐焦点。海外以OpenAI的ChatGPT与Google Gemini为引领,通过深度集成各类服务,塑造了一体化智能助手的新范式;国内字节、阿里、蚂蚁等依托生态积极布局。其中,蚂蚁推出的全模态AI助手“灵光”与AI健康应用“蚂蚁阿福”,分别在超级应用与健康垂直领域进行探索。AI时代的“新BAT”格局正在形成。
趋势6:产业应用滑向“幻灭低谷期”,2026H2 迎来“V 型”反转
企业级AI应用在经历概念验证热潮后,因数据、成本等问题正步入“幻灭低谷期”。但随着数据治理与工具链成熟,预计2026年下半年将迎来转折,一批真正可衡量价值的MVP产品将在垂直行业规模落地。
趋势7:合成数据占比攀升,有望破除“2026 年枯竭魔咒”
高质量真实数据面临枯竭,合成数据正成为模型训练的核心燃料。“修正扩展定律”为其提供了理论支撑。尤其在自动驾驶和机器人领域,由世界模型生成的合成数据,将成为降低训练成本、提升性能的关键资产。
趋势8:推理优化远未触顶,“技术泡沫”是假命题
推理效率仍是AI大规模应用的核心瓶颈与竞争焦点。通过算法创新与硬件变革,推理成本持续下降,能效比不断提升。这使得在资源受限的边缘端部署高性能模型成为可能,是AI普惠的关键前提。
趋势9:开源编译器生态汇聚众智,异构全栈底座引领算力普惠
为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要。繁荣的算子语言与趋于收敛的编译器技术正在降低开发门槛。以智源FlagOS为代表的平台,致力于构建软硬解耦、开放普惠的AI算力底座。
趋势10:从幻觉到欺骗,AI 安全迈向机制可解释与自演化攻防
AI安全风险已从“幻觉”演变为更隐蔽的“系统性欺骗”。技术上,Anthropic的回路追踪研究致力于从内部理解模型机理;OpenAI推出自动化安全研究员。产业上,安全水位成为落地生死线,蚂蚁集团构建“对齐-扫描-防御”全流程体系,推出智能体可信互连技术(ASL)及终端安全框架gPass;智源研究院联合全球学者发布AI欺骗系统性国际报告,警示前沿风险。安全正内化为AI系统的免疫基因。
随后,来自产业界的ANP开源社区发起人、杭州向量创始人常高伟,光轮智能联合创始人兼总裁杨海波,百灵大语言模型负责人张志强,以及智源研究院资深研究员等就趋势进行了详细分享。

智源研究院表示,十大AI技术趋势为未来一年的技术探索与产业布局提供了清晰锚点,研究院将持续与产学研各界合作,以开放生态推动人工智能稳健地迈向价值兑现的新阶段。
好文章,需要你的鼓励
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
这项由香港中文大学和AWS团队联合开发的研究推出了TALK2MOVE系统,实现了用自然语言精准操作图片中物体的位置、角度和大小。该系统采用强化学习训练方式,通过空间感知奖励机制和智能步骤采样技术,在移动、旋转、缩放三类操作上的准确率显著超越现有方法,同时大幅降低了对昂贵训练数据的依赖,为AI图像编辑领域带来重要突破。
研究人员对Claude、GPT-4、Gemini和Grok等商用AI模型进行测试,发现这些模型能够记忆并完整输出受版权保护的内容。其中越狱后的Claude 3.7 Sonnet能输出95.8%的《哈利波特与魔法石》内容,而Gemini和Grok在无需越狱情况下也能输出超过70%的内容。这一发现可能对正在进行的AI版权诉讼产生重要影响,目前多家AI公司面临超过60项相关法律诉讼。
斯坦福大学等知名机构联合研究发现,企业AI助手在执行组织政策时存在严重"偏科"问题:处理允许请求时成功率超95%,但拒绝违规请求时仅13-40%。研究团队开发的COMPASS评估框架通过8个行业5920个测试问题,揭示了AI助手普遍缺乏"拒绝技能"的问题,并提出了针对性训练解决方案。