多模态技术将在 2025 年重新定义企业如何利用 AI。想象一下,一个不仅能理解文本,还能理解图像、音频和其他传感器数据的 AI。人类天生就是多模态的,但我们处理输入信息的能力有限。以医疗保健为例,在我在 Google Health 工作期间,我听到许多病人用大量数据压垮医生的故事:
想象一个患有心房颤动 (AFIB) 的病人带着五年来从智能手表收集的详细睡眠数据就诊。或者一个癌症患者带着 20 磅重的医疗记录,记录了他们接受过的每一次治疗。这两种情况都是非常真实的。对医生来说,挑战是相同的:从噪音中分离出有用信息。
我们需要的是一个能够总结和突出关键点的 AI。像 ChatGPT 这样的大语言模型已经可以对文本进行这样的处理,提取出最相关的信息。但如果我们能教会 AI 对其他类型的数据 —— 如图像、时间序列或实验室结果 —— 做同样的事情呢?
多模态 AI 是如何工作的?
要理解多模态如何工作,我们首先要明白 AI 需要数据来进行训练和做出预测。多模态 AI 被设计用来同时处理多种数据源 —— 文本、图像、音频、视频,甚至时间序列数据。通过结合这些输入,多模态 AI 能够对所处理的问题提供更丰富、更全面的理解。
多模态 AI 更像是一种发现工具。不同的数据模态被 AI 存储。当输入新的数据点时,AI 会找到相近的主题。例如,通过输入某人智能手表的睡眠数据以及他们心房颤动 (AFIB) 发作的信息,医生可能会发现睡眠呼吸暂停的迹象。
注意,这是基于"相似性",而不是相关性。这是 Amazon 曾经popularized的方法的升级版:"购买这件商品的人也购买了那件商品"。在这种情况下,它更像是:"具有这种睡眠模式的人也被诊断出患有 AFIB"。
多模态解释:编码器、融合和解码器
多模态 AI 系统由三个主要组件组成:编码器、融合和解码器。
编码任何模态
编码器将原始数据(如文本、图像、声音、日志文件等)转换为 AI 可以处理的表示。这些表示被称为向量,存储在潜在空间中。简单来说,可以将这个过程想象成在仓库(潜在空间)中存储一件物品,每件物品都有一个特定的位置(向量)。编码器几乎可以处理任何东西:图像、文本、声音、视频、日志文件、物联网(传感器)信息、时间序列 —— 应有尽有。
融合机制:结合模态
当只处理一种类型的数据(如图像)时,编码就足够了。但是当处理多种类型的数据 —— 图像、声音、文本或时间序列数据 —— 时,我们需要融合信息以找出最相关的内容。
解码器:生成我们能理解的输出
解码器从潜在空间(即仓库)中"解码"信息,并将其传递给我们。它将原始、抽象的信息转化为我们能理解的东西。例如,找到一张"房子"的图像。
如果你想了解更多关于编码、解码和重新排序的知识,可以参加我的 eCornell 在线证书课程"设计和构建 AI 解决方案"。这是一个无需编程的课程,探讨了 AI 解决方案的各个方面。
用多模态技术改造电子商务
让我们看另一个例子:电子商务。Amazon 的界面 25 年来几乎没有变化 —— 你输入关键词,滚动浏览结果,希望找到你需要的东西。多模态技术可以通过让你描述产品、上传照片或提供上下文来找到最适合你的匹配,从而彻底改变这种体验。
用多模态 AI 修复搜索
在 r2decide,一家由我和几个康奈尔校友创立的公司,我们正在使用多模态技术将搜索、浏览和聊天合并为一个无缝的流程。我们的客户是那些厌倦了因为用户找不到他们需要的东西而损失收入的电子商务公司。我们解决方案的核心是多模态 AI。
例如,在一个在线珠宝商店,用户搜索"绿色"时,过去只有当"绿色"这个词出现在产品文本中时,才会看到绿色珠宝。由于 r2decide 的 AI 还将图像编码到共享的潜在空间(即仓库)中,它可以在所有模态中找到"绿色"。然后,根据用户过去的搜索和点击重新排序这些项目,确保他们收到最相关的"绿色"选项。
用户还可以搜索更广泛的上下文,如"婚礼"、"红裙子"或"哥特风"。AI 将这些输入编码到潜在空间中,匹配合适的产品,并显示最相关的结果。这种能力甚至延伸到像"Swarovski"这样的品牌名称,即使商店并不正式销售 Swarovski 产品,也能显示相关的商品。
AI 生成的提示以提供类似聊天的建议
除了搜索结果,R2Decide 还生成 AI 驱动的提示 —— 旨在增强用户体验的上下文推荐或提示。这些提示由 AI 代理驱动,正如我昨天在关于代理型 AI 的文章中所描述的。它们的目的是轻松地引导用户找到最相关的选项,使搜索过程变得直观、引人入胜且高效。
2025 年的多模态技术:企业的无限可能
多模态技术正在改变各个行业,从医疗保健到电子商务。而这还远不是终点。像 TC Labs 这样的初创公司使用多模态 AI 来简化工程工作流程,提高效率和质量,而丰田则使用它来提供互动的、个性化的客户协助。
2025 年将是多模态 AI 改变企业工作方式的一年。在 Forbes 或 LinkedIn 上关注我,了解更多我对 2025 年 AI 的预测。
好文章,需要你的鼓励
OpenAI、Anthropic和Google的AI代码助手现在能够在人工监督下连续工作数小时,编写完整应用、运行测试并修复错误。但这些工具并非万能,可能会让软件项目变得复杂。AI代码助手的核心是大语言模型,通过多个LLM协作完成任务。由于存在上下文限制和"注意力预算"问题,系统采用上下文压缩和多代理架构来应对。使用时需要良好的软件开发实践,避免"氛围编程",确保代码质量和安全性。研究显示经验丰富的开发者使用AI工具可能反而效率降低。
Prime Intellect团队发布开源AI训练全栈INTELLECT-3,这个106亿参数模型在数学、编程等测试中超越多个大型前沿模型。团队完全开源了包括prime-rl训练框架、环境库、代码执行系统在内的完整基础设施,为AI研究社区提供了高质量的训练工具,推动AI技术民主化发展。
英伟达与AI芯片竞争对手Groq达成非独家授权协议,将聘请Groq创始人乔纳森·罗斯、总裁桑尼·马德拉等员工。据CNBC报道,英伟达以200亿美元收购Groq资产,但英伟达澄清这并非公司收购。Groq开发的LPU语言处理单元声称运行大语言模型速度快10倍,能耗仅为十分之一。该公司今年9月融资7.5亿美元,估值69亿美元,为超200万开发者的AI应用提供支持。
港科大研究团队开发ORCA框架,首次让视频头像具备真正的"主观能动性"。通过"观察-思考-行动-反思"循环机制和双系统架构,虚拟角色能够自主完成复杂多步骤任务,在L-IVA测试平台上达到71%成功率。这项技术突破了传统视频生成只能机械执行预设动作的限制,为虚拟主播、教育视频等应用开辟新前景。