多模态技术将在 2025 年重新定义企业如何利用 AI。想象一下,一个不仅能理解文本,还能理解图像、音频和其他传感器数据的 AI。人类天生就是多模态的,但我们处理输入信息的能力有限。以医疗保健为例,在我在 Google Health 工作期间,我听到许多病人用大量数据压垮医生的故事:
想象一个患有心房颤动 (AFIB) 的病人带着五年来从智能手表收集的详细睡眠数据就诊。或者一个癌症患者带着 20 磅重的医疗记录,记录了他们接受过的每一次治疗。这两种情况都是非常真实的。对医生来说,挑战是相同的:从噪音中分离出有用信息。
我们需要的是一个能够总结和突出关键点的 AI。像 ChatGPT 这样的大语言模型已经可以对文本进行这样的处理,提取出最相关的信息。但如果我们能教会 AI 对其他类型的数据 —— 如图像、时间序列或实验室结果 —— 做同样的事情呢?
多模态 AI 是如何工作的?
要理解多模态如何工作,我们首先要明白 AI 需要数据来进行训练和做出预测。多模态 AI 被设计用来同时处理多种数据源 —— 文本、图像、音频、视频,甚至时间序列数据。通过结合这些输入,多模态 AI 能够对所处理的问题提供更丰富、更全面的理解。
多模态 AI 更像是一种发现工具。不同的数据模态被 AI 存储。当输入新的数据点时,AI 会找到相近的主题。例如,通过输入某人智能手表的睡眠数据以及他们心房颤动 (AFIB) 发作的信息,医生可能会发现睡眠呼吸暂停的迹象。
注意,这是基于"相似性",而不是相关性。这是 Amazon 曾经popularized的方法的升级版:"购买这件商品的人也购买了那件商品"。在这种情况下,它更像是:"具有这种睡眠模式的人也被诊断出患有 AFIB"。
多模态解释:编码器、融合和解码器
多模态 AI 系统由三个主要组件组成:编码器、融合和解码器。
编码任何模态
编码器将原始数据(如文本、图像、声音、日志文件等)转换为 AI 可以处理的表示。这些表示被称为向量,存储在潜在空间中。简单来说,可以将这个过程想象成在仓库(潜在空间)中存储一件物品,每件物品都有一个特定的位置(向量)。编码器几乎可以处理任何东西:图像、文本、声音、视频、日志文件、物联网(传感器)信息、时间序列 —— 应有尽有。
融合机制:结合模态
当只处理一种类型的数据(如图像)时,编码就足够了。但是当处理多种类型的数据 —— 图像、声音、文本或时间序列数据 —— 时,我们需要融合信息以找出最相关的内容。
解码器:生成我们能理解的输出
解码器从潜在空间(即仓库)中"解码"信息,并将其传递给我们。它将原始、抽象的信息转化为我们能理解的东西。例如,找到一张"房子"的图像。
如果你想了解更多关于编码、解码和重新排序的知识,可以参加我的 eCornell 在线证书课程"设计和构建 AI 解决方案"。这是一个无需编程的课程,探讨了 AI 解决方案的各个方面。
用多模态技术改造电子商务
让我们看另一个例子:电子商务。Amazon 的界面 25 年来几乎没有变化 —— 你输入关键词,滚动浏览结果,希望找到你需要的东西。多模态技术可以通过让你描述产品、上传照片或提供上下文来找到最适合你的匹配,从而彻底改变这种体验。
用多模态 AI 修复搜索
在 r2decide,一家由我和几个康奈尔校友创立的公司,我们正在使用多模态技术将搜索、浏览和聊天合并为一个无缝的流程。我们的客户是那些厌倦了因为用户找不到他们需要的东西而损失收入的电子商务公司。我们解决方案的核心是多模态 AI。
例如,在一个在线珠宝商店,用户搜索"绿色"时,过去只有当"绿色"这个词出现在产品文本中时,才会看到绿色珠宝。由于 r2decide 的 AI 还将图像编码到共享的潜在空间(即仓库)中,它可以在所有模态中找到"绿色"。然后,根据用户过去的搜索和点击重新排序这些项目,确保他们收到最相关的"绿色"选项。
用户还可以搜索更广泛的上下文,如"婚礼"、"红裙子"或"哥特风"。AI 将这些输入编码到潜在空间中,匹配合适的产品,并显示最相关的结果。这种能力甚至延伸到像"Swarovski"这样的品牌名称,即使商店并不正式销售 Swarovski 产品,也能显示相关的商品。
AI 生成的提示以提供类似聊天的建议
除了搜索结果,R2Decide 还生成 AI 驱动的提示 —— 旨在增强用户体验的上下文推荐或提示。这些提示由 AI 代理驱动,正如我昨天在关于代理型 AI 的文章中所描述的。它们的目的是轻松地引导用户找到最相关的选项,使搜索过程变得直观、引人入胜且高效。
2025 年的多模态技术:企业的无限可能
多模态技术正在改变各个行业,从医疗保健到电子商务。而这还远不是终点。像 TC Labs 这样的初创公司使用多模态 AI 来简化工程工作流程,提高效率和质量,而丰田则使用它来提供互动的、个性化的客户协助。
2025 年将是多模态 AI 改变企业工作方式的一年。在 Forbes 或 LinkedIn 上关注我,了解更多我对 2025 年 AI 的预测。
好文章,需要你的鼓励
Genspark推出超级智能体,将"氛围编程"概念扩展至企业工作流程,实现"氛围工作"模式。该系统采用9个大语言模型的专家混合架构,配备80多种工具和10多个数据集,通过规划-执行-观察-回溯循环运行。系统能自主处理复杂业务任务,甚至代替用户拨打电话。45天内实现3600万美元年收入,展现了自主智能体平台的商业可行性,挑战传统企业AI架构理念。
北京大学和百度VIS联合研发的MV-AR技术,首次让AI学会像人类一样逐步观察物体,通过自回归方式生成多视角一致图像。该技术解决了传统方法在处理大视角差异时的一致性问题,支持文字、图像、形状等多种输入,在3D内容创作、机器人视觉等领域具有广阔应用前景。
医疗保健已成为AI应用的热点领域,在疾病诊断、康复监测和新药开发方面证明了其价值。然而,行业仍面临临床人员短缺、人口老龄化等挑战。AI智能体作为下一波AI变革浪潮,相比现有AI工具,能够执行更复杂的任务并减少人工干预。它们不仅能被动提供信息,还能主动采取行动,如自动分诊调度、辅助临床决策、远程患者监护等,有望在十年内彻底改变医疗服务的提供、管理和体验方式。
Microsoft和Georgia Tech研究团队开发了SlimMoE技术,能将超大AI模型压缩到原来的10-20%大小而性能基本不变。该技术采用多阶段渐进式压缩,保留所有专家模块但精简内部结构,成功将419亿参数的模型压缩为76亿和38亿参数版本,让原本需要企业级硬件的AI能力可在普通电脑上运行,大大降低了AI技术使用门槛。