近日,人工智能领域国际顶级学术刊物IEEE Transactions on Pattern Analysis and Machine Intelligence(即IEEE TPAMI,影响因子17.861)接收了华为云员工博士论文期间的研究成果——论文“What is a Tabby? Interpretable Model Decisions by Learning Attribute-based Classification Criteria”。华为云已进一步联合中国科学院计算技术研究所将该成果应用于华为云EI故障检测平台,并支撑铁路、电网等客户的实际故障检测业务,未来计划应用于华为云一站式AI开发平台ModelArts训练服务,向模型中引入人工先验知识,提升模型精度;并计划应用于ModelArts推理服务,帮助定位当前模型存在的问题,确定后续进一步优化的思路。
受益于深度学习技术的突破,图像分类、物体检测等传统计算机视觉任务的精度也得到了大幅度的提升,但是由于深度学习模型的复杂性,目前关于深度学习的理论并不完善。可解释的深度学习模型,以及深度学习模型与人工先验的结合是当前学术界重点研究的前沿方向,对于提升深度学习模型的可靠性和泛化能力具有重要的意义。
方法框架示意图
通过利用物体类别之间存在的层级关系约束,自动学习从数据中抽取识别不同类别的规则,该论文同时在这两个方向上迈出了坚实的一步:在可解释深度学习模型方面,相比于现有方法,不仅能够给出图像中的关键区域,还能给出规则化的解释,对使用者更友好,更符合人对于解释结果的期望;在引入人工先验知识方面,走通了一条基本可行的技术路线。
为了更好地赋能产业升级,华为云持续深耕AI基础研究和落地应用。2020年以来,华为云人工智能研究团队已在图像分类、弱标注场景下的图像分类、图像检测,多模态数据处理、语音语义等领域取得多项世界第一,研究成果多次被顶级期刊及学术会议接受。未来,华为云将持续把AI前沿算法产品化,并开放给各行业的AI开发者使用,通过技术创新驱动产业智能升级。
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。