大模型之家2024年12月热力榜:AI技术深耕产业应用,未来竞争格局初显端倪
Scaling Law在这一新阶段被赋予了新的定义,标志着大模型领域的竞争焦点已由单纯的基础模型能力比拼,拓展至对场景应用与商业变现能力的深度挖掘。在此转型过程中,人工智能在产业应用方面展现出的巨大价值愈发凸显。
随着2025年的到来,人工智能领域的发展迈入了全新阶段。Scaling Law在这一新阶段被赋予了新的定义,标志着大模型领域的竞争焦点已由单纯的基础模型能力比拼,拓展至对场景应用与商业变现能力的深度挖掘。在此转型过程中,人工智能在产业应用方面展现出的巨大价值愈发凸显。
在大模型之家《2024年12月大模型热力榜》中,共收录了216家大型模型及其所属企业。其中,百度、商汤、智谱与360等人工智能企业持续领跑榜单。这些企业在智能体构建及原生应用场景的落地实施方面取得了显著进展,引发了行业的高度关注。这不仅体现了行业对大模型与产业深度融合的迫切需求,也彰显了该领域的蓬勃活力。
12月4日早间,商汤集团宣布其已完成重大战略组织架构重组。此次重组旨在更好地应对AI 2.0时代所带来的机遇与挑战,推动公司的持续创新与发展。商汤集团此次重组后建立了全新的“1+X”架构。其中,“1”代表商汤集团的核心业务,致力于打造行业领先的AI云,实现大装置、基础模型和AI应用的无缝集成。同时,商汤集团还将在计算机视觉(CV)领域深耕通用视觉模型,并拓展各个应用场景,以进一步巩固其在AI领域的领先地位。
12月5日,百度副总裁、百度搜索总经理赵世奇在2024百度热AI营销大会上透露,百度文心智能体平台已汇聚15万企业用户。相较于年初,该平台的分发量实现了16倍的增长。这一显著增长不仅彰显了百度文心智能体平台的强大吸引力,也预示着人工智能营销领域的巨大潜力。
12月6日,昆仑万维旗下天工AI推出了全新功能——天工AI彩页。这一功能特别针对结构化知识型内容进行了优化,旨在为用户带来更加极致的阅读体验与创作效能。
12月16日,无问芯穹宣布开源端上智能一体化解决方案中的小模型——端侧全模态理解模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。介绍,Megrez-3B-Omni选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最高领先同精度模型300%。此外,还同时具备图片、音频、文本三种模态数据处理能力,且在三个模态的多种测评基准中取得最优性能,是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。
12月17日,360集团集结产业上下游合作伙伴、科研机构及最终用户共同在北京成立大模型安全联盟,旨在构建开放协作的大模型安全产业新模式,推进产业生态的全面融合,并推出了多款具有重要行业价值的企业级应用新产品,包括360智脑团队研发的大模型全链路安全检测的“智鉴”、内容安全护航的“智盾”、搜索增强利器“智搜”,以及360数智化团队研发的知识管理平台“智能文档云”和情报监测工具“舆情卫士”。
12月23日,DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米,或供职于小米AI实验室,领导小米大模型团队。罗福莉硕士毕业于北京大学,曾主导开发阿里达摩院的多语言预训练模型VECO。2022年,她离开阿里加入DeepSeek,参与了DeepSeek-V2的开发。据悉,雷军为招募领军小米大模型的人才,亲自出面并支付千万元级别薪酬。此前,小米AI实验室已设立大模型团队,由栾剑担任负责人。结合小米被曝正在着手搭建自己的GPU万卡集群的传闻,雷军对于大模型领域的投入可谓倾尽全力。
同日,百川智能发布全链路领域增强大模型Baichuan4-Finance。其金融专业能力和场景应用能力大幅领先GPT-4o,在中国人民大学财政金融学院新近发布的评测体系FLAME以及国内主流开源金融评测基准FinancelQ上均登上榜首。
12月25日,阿里云通义千问发布了业界首个开源多模态推理模型QVQ-72B-Preview。该模型在视觉理解和推理能力上展现出色,尤其在解决数学、物理、科学等领域的复杂推理问题上表现突出。QVQ-72B-Preview的发布,为开发者提供了强大的工具,目前,开发者可在魔搭社区和HuggingFace平台上直接体验这一创新模型,探索其在多模态推理领域的广泛应用潜力。
12月26日,百度文心大模型与东方明珠塔联合推出的东方明珠塔智能体“数智塔塔”正式上线。作为文心大模型与文旅行业深度融合的最新成果,“数智塔塔”提供智能导览、中英双语、AI拍照打卡等服务,为游客打造全新的互动式东方明珠塔游览体验,为文旅行业赋予了数字时代的新生命力。
12月31日,百川智能与北京市海淀区卫健委签署战略合作。双方将紧密围绕基层医疗健康事业发展需求,积极探索医疗大模型技术创新与应用,通过“1+2+N”方案(1个多模态医疗大模型,2个AI医生:AI全科医生、AI儿科医生,N个不同场景),共建“AI医生-真人医生双医协同”的医疗服务新模式,切实解决基层高水平医生供给不足、医疗服务范围有限,医疗服务效率不高等痛点问题,打破基层医疗服务的“不可能三角”,将海淀区打造成医疗新质生产力的“样板间”。
同日,GLM技术团队宣布发布其年度最后一个模型——GLM-Zero的初代版本GLM-Zero-Preview。这是智谱首个基于扩展强化学习技术训练的推理模型,标志着GLM技术团队在通往AGI(人工通用智能)的道路上又迈出了重要一步。
0赞好文章,需要你的鼓励
推荐文章
ETH Zürich等机构研究人员提出TrustVLM框架,解决视觉-语言模型预测可信度问题。该方法利用模型中存在的"模态差距",创新性地结合图像到文本和图像到图像的相似度,实现无需重新训练即可大幅提升误分类检测性能。在17个数据集的严格测试中,TrustVLM相比现有方法在关键指标上提升显著,同时改善了零样本分类准确率。此成果为AI系统在自动驾驶、医疗等安全关键领域的可靠部署提供了重要保障。
这项研究提出了个性化安全概念,解决大语言模型对不同用户采用统一安全标准的问题。研究团队创建了PENGUIN基准测试集评估模型在处理高风险场景时的个性化安全能力,并开发了RAISE框架高效获取关键用户信息。实验表明,提供用户背景可使安全分数提高43.2%,而RAISE框架通过平均仅2.7次交互即可提高安全分数31.6%。这一创新方法将AI安全从"一刀切"转向"个性定制",为高风险领域的AI应用提供了新思路。
明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提供具体反馈。在维基百科搜索工具使用场景中,该方法实现了100%的工具执行成功率和50%的答案精确匹配率,远超传统方法。这一突破不仅提高了AI在多步骤任务中的表现,也为开发更复杂的AI系统提供了重要思路。
这篇研究介绍了PISCES——一种能精确从大语言模型参数中移除特定概念知识的创新技术。与现有方法不同,PISCES通过解缠器模型识别概念相关特征,直接编辑模型参数,实现了更精准的知识移除。在Gemma和Llama模型上的测试表明,该方法不仅有效降低了目标概念的准确率(低至7.7%),还保持了模型在无关领域的高性能,并显著提高了对"重新学习"的抵抗力。这一突破为AI系统的安全部署和合规使用提供了新的可能性。