据英国《金融时报》今日报道,Google LLC 正在向 Anthropic PBC 投资超过 10 亿美元。
这笔资金是在 Google 已经向这家人工智能开发公司提供的 20 亿美元基础上追加的投资。另外,据悉 Anthropic 正在由 Lightspeed Venture Partners 领投的机构投资者团队那里筹集 20 亿美元。后者这笔交易预计将使公司估值达到 600 亿美元。
Anthropic 开发了一系列面向企业的大语言模型,名为 Claude。这些模型可以生成文本、编写软件代码并执行多种其他任务。Anthropic 通过应用程序接口 (API) 提供其大语言模型,使其能够集成到第三方软件中。
该公司在去年 6 月推出了其最强大的模型 Claude 3.5 Sonnet。Anthropic 声称该算法在多项推理任务中的表现优于 OpenAI 的通用型 GPT-4 模型。Claude 3.5 Sonnet 还可以代表用户在商业应用程序中执行操作。
在本周的《华尔街日报》活动中,Anthropic 首席执行官 Dario Amodei 分享了该公司 AI 路线图的新细节。他详细说明了 Anthropic 计划为其大语言模型增加网页浏览能力,并在不同项目中记住用户偏好。此外,Anthropic 将提高其 API 的速率限制,让开发者能够向其大语言模型发送更多提示。
据 Amodei 表示,Anthropic 限制 API 使用部分原因是其后端基础设施难以满足需求。该公司目前正在升级这些基础设施。据报道来自 Google 的 10 亿美元投资可能会让 Anthropic 更容易购买更多 AI 硬件。
去年 11 月,这家大语言模型开发商从 Amazon.com Inc. 筹集了 40 亿美元融资。作为合作的一部分,Anthropic 将使用 Amazon Web Services Inc. 的定制 AWS Trainium 芯片来训练未来的基础模型。目前尚不清楚来自 Google 的投资是否会让 Anthropic 增加使用这家搜索巨头的竞争性公共云来支持大语言模型项目。
上个月,AWS 详细介绍了正在与 Anthropic 合作建设一个名为 Project Rainier 的 AI 超级计算机。该系统将包含数十万个 Trainium 芯片。一旦投入使用,预计将提供比 Anthropic 用于训练其当前旗舰大语言模型的集群多出五倍的计算能力。
除了升级基础设施外,Anthropic 计划更直接地与 OpenAI 不断扩大的推理优化大语言模型阵容展开竞争。在本周的《华尔街日报》活动中,Amodei 表示该公司正在开发可以处理更复杂任务的新模型。他暗示 Anthropic 并非只专注于构建推理型大语言模型,而是计划为通用模型配备更好的问题解决能力。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。