麻省理工学院旗下的著名学术期刊SMR发布了,最新关于生成式AI(AIGC)的应用报告。
本次对欧洲、北美、亚太地区超过1000家大中型企业(员工人数在100—10000名以上),来自金融服务、制造业、零售、建筑、医疗保健等不同行业的领导者、总监、部门主管等进行了调查,查看他们的使用情况。
结果显示,2024上半年,企业对生成式AI的应用几乎增长了一倍,越来越多的企业开始通过这项技术来改变工作方式和决策模式。
同时也吸引了资本市场的目光,2024年上半年,为生成式AI初创企业和相关企业提供资金的风险投资和私募股权投资增长明显。
在本次接受调查的企业用户中,67%的早期用户已经使用生成式AI;26%正计划使用;只有7%的用户还处于评估观望状态。这也就是说93%的企业,已经开始重视到生成式AI带来的诸多好处。
已经使用生成式AI的早期用户表示,他们热衷于通过生成式 AI 来改善数据驱动的分析,来解决销售、客户体验等实际业务。他们认为,生成式 AI能够加速数据驱动的决策制定、简化复杂数据的呈现、改善业务分析以及提高产品和服务质量。
例如,全球最大水、卫生和能源服务公司之一Ecolab 便通过使用生成式 AI 进行分析的试点项目,通过预测分析为管理人员和销售人员找出了商机并提升了客户体验,提高整个财务业绩。
在行业竞争优势方面, 37% 的早期生成式AI使用者认为,自己在市场和竞争对手中遥遥领先,而计划者中这一比例仅为 11%。这表明早期使用者通过积极应用生成式 AI,已经取得了一定的竞争优势,并且相信这种优势将继续扩大。
相反,只有 4% 的早期使用者认为自己落后,而计划使用者的比例为 8%。这说明早期使用者对自身在市场中的地位更有信心,而计划者可能感受到了更大的竞争压力。
投资回报率是企业应用创新技术的重要指标之一。48%的早期生成式AI使用者期望在三年内获得 100% 或更高的投资回报率,而计划者中这一比例为 38%。这表明早期使用者对生成式 AI 的投资回报充满信心,他们看到了这一技术在提升企业效率、降低成本、增加收入等方面的巨大潜力。
值得关注的是,12% 的早期使用者期望获得 300% 或更高的投资回报率,而计划者的比例仅为 2%。这进一步凸显了早期使用者的乐观预期,他们愿意在生成式 AI 上加大投入,以获取更高的回报。
在业务与数据团队合作方面,早期使用者也表现出了明显的优势。75% 的早期使用者表示其业务和数据团队有强大的合作伙伴关系和集中化战略,而计划者中这一比例仅为 47%。
这说明早期使用者更加注重团队之间的协作和沟通,能够有效地将业务需求与数据技术相结合,充分发挥生成式 AI 的潜力。
调查中还发现,不同类型的企业对生成式AI的需求也不同。大中型企业早期应用者的前三大优先事项是改善业务分析(59%)、改善产品和服务(54%)以及提高客户满意度(48%);
而小型公司早期应用者则对提高决策速度(36%)和提高生产力(34%)更为关注。这反映出不同规模企业在应用生成式 AI 时,根据自身的业务特点和需求有着不同的侧重点。
不同的地区企业在应用生成式AI方面也有不同的差异,亚太地区的早期应用者尤其是总部位于澳大利亚、新西兰、印度或日本的企业,将改善客户服务和满意度视为首要任务,欧洲和英国的早期应用者中有 43% 也是这么认为。
而美国和加拿大的早期应用者中有 48% 将提高数据分析师效率视为应用该技术的最重要原因,提高客户服务和满意度则排名第二仅为35%。
此外在生成式AI产品选择方面,超过50%的早期应用者热衷于使用第三方工具,例如,使用OpenAI的ChatGPT等产品;计划者的比例为32%。
这说明早期应用者更倾向于借助外部专业技术来快速获取生成式 AI 的能力,这样比自己训练、微调更加高效省时省力。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。