突发新闻:又一科技巨头加速其 AI 研发进程。这一次的主角是 Meta,据路透社报道,该公司正在测试其首款自研的 AI 训练芯片。此举旨在降低其庞大的基础设施成本,并减少对 NVIDIA 的依赖 (据说 NVIDIA 经常让扎克伯格说出"成人用语")。如果一切顺利,Meta 希望能在 2026 年将其用于训练。
据报道,Meta 已开始小规模部署这款专用加速器芯片,该芯片专门设计用于 AI 任务 (因此比通用型 NVIDIA GPU 更节能)。在完成首次"流片"后,公司随即开始部署。流片是硅芯片开发中的一个阶段,即将完整设计送去进行制造测试。
该芯片属于 Meta Training and Inference Accelerator (MTIA) 系列,这是该公司专注于生成式 AI、推荐系统和高级研究的自研芯片系列。
去年,该公司开始使用 MTIA 芯片进行推理,这是 AI 模型在后台进行的预测过程。Meta 已开始在 Facebook 和 Instagram 的新闻推送推荐系统中使用推理芯片。据路透社报道,该公司计划也开始使用训练芯片。两种芯片的长期计划据称是从推荐系统开始,最终用于像 Meta AI 聊天机器人这样的生成式产品。
在 2022 年订购了价值数十亿美元的 GPU 后,该公司成为 NVIDIA 最大的客户之一。这是 Meta 的一个转折点,此前该公司放弃了一款在小规模测试部署中失败的自研推理芯片——这与现在正在进行的训练芯片测试类似。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。