专注于为商业和企业用途开发小型AI模型的初创公司Arcee.ai,现已开放其AFM-4.5B模型供小型公司有限免费使用。该公司在Hugging Face上发布了模型权重,并允许年收入低于175万美元的企业在自定义的"Arcee模型许可证"下免费使用。
这个45亿参数的模型专为现实世界的企业应用而设计,相比数百亿到万亿参数的前沿模型要小得多,在紧凑的占用空间内结合了成本效益、合规性和强大性能。
AFM-4.5B是Arcee上月发布的两部分版本之一,已经经过"指令调优",是一个"指令"模型,专为聊天、检索和创意写作而设计,可以立即在企业中部署用于这些用例。当时还发布了另一个基础模型,该模型未经指令调优,仅经过预训练,为客户提供更多定制性。然而,这两个模型此前都只能通过商业许可条款获得。
Arcee首席技术官Lucas Atkins在X平台上发帖表示,更多"专门用于推理和工具使用的模型即将推出"。
该模型现在可在各种环境中部署——从云端到智能手机再到边缘硬件。它也面向Arcee不断增长的企业客户列表及其需求——特别是在不侵犯知识产权的情况下训练的模型。
正如Arcee在上月的AFM-4.5B初始公告中写道:"我们投入巨大努力排除受版权保护的书籍和许可不明确的材料。"
Arcee表示与第三方数据策划公司DatologyAI合作,应用源混合、基于嵌入的过滤和质量控制等技术,旨在最小化幻觉和知识产权风险。
专注企业客户需求
AFM-4.5B是Arcee.ai对企业采用生成式AI主要痛点的回应:高成本、有限的可定制性,以及对专有大语言模型的监管担忧。
过去一年中,Arcee团队与150多个组织进行了讨论,从初创公司到财富100强公司,以了解现有大语言模型的局限性并定义自己的模型目标。
据该公司称,许多企业发现主流大语言模型——如来自OpenAI、Anthropic或DeepSeek的模型——过于昂贵且难以针对特定行业需求进行定制。与此同时,虽然像Llama、Mistral和Qwen等较小的开放权重模型提供了更多灵活性,但它们引入了关于许可、知识产权来源和地缘政治风险的担忧。
AFM-4.5B被开发为"无妥协"的替代方案:可定制、合规且成本效益高,同时不牺牲模型质量或可用性。
技术架构与训练过程
AFM-4.5B模型使用纯解码器Transformer架构,并进行了多项性能和部署灵活性优化。它集成了分组查询注意力以实现更快推理,并使用ReLU?激活替代SwiGLU以支持稀疏化而不降低准确性。
训练遵循三阶段方法: - 在6.5万亿Token的通用数据上进行预训练 - 在1.5万亿Token上进行中期训练,重点关注数学和代码 - 使用高质量指令遵循数据集和基于可验证及偏好反馈的强化学习进行指令调优
为满足严格的合规和知识产权标准,该模型在近7万亿Token的数据上进行训练,这些数据经过清洁度和许可安全性策划。
竞争性能表现
尽管规模较小,AFM-4.5B在广泛的基准测试中表现出竞争力。指令调优版本在MMLU、MixEval、TriviaQA和Agieval等评估套件中平均得分50.13,与类似规模的模型如Gemma-3 4B-it、Qwen3-4B和SmolLM3-3B匹配或优于它们。
多语言测试显示该模型在10多种语言中表现强劲,包括阿拉伯语、中文、德语和葡萄牙语。
在按用户投票和胜率对对话模型质量进行排名的排行榜中,该模型排名第三,仅次于Claude Opus 4和Gemini 2.5 Pro。它拥有59.2%的胜率和所有顶级模型中最快的延迟0.2秒,配合179Token每秒的生成速度。
内置智能体支持
除了通用功能外,AFM-4.5B还内置了函数调用和智能体推理支持。这些功能旨在简化构建AI智能体和工作流自动化工具的过程,减少对复杂提示工程或编排层的需求。
AFM-4.5B代表了Arcee.ai推动定义企业就绪语言模型新类别的努力:小型、高性能且完全可定制,没有专有大语言模型或开放权重小型语言模型通常带来的妥协。凭借竞争性基准、多语言支持、强大的合规标准和灵活的部署选项,该模型旨在满足企业对速度、主权和规模的需求。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。