专注于为商业和企业用途开发小型AI模型的初创公司Arcee.ai,现已开放其AFM-4.5B模型供小型公司有限免费使用。该公司在Hugging Face上发布了模型权重,并允许年收入低于175万美元的企业在自定义的"Arcee模型许可证"下免费使用。
这个45亿参数的模型专为现实世界的企业应用而设计,相比数百亿到万亿参数的前沿模型要小得多,在紧凑的占用空间内结合了成本效益、合规性和强大性能。
AFM-4.5B是Arcee上月发布的两部分版本之一,已经经过"指令调优",是一个"指令"模型,专为聊天、检索和创意写作而设计,可以立即在企业中部署用于这些用例。当时还发布了另一个基础模型,该模型未经指令调优,仅经过预训练,为客户提供更多定制性。然而,这两个模型此前都只能通过商业许可条款获得。
Arcee首席技术官Lucas Atkins在X平台上发帖表示,更多"专门用于推理和工具使用的模型即将推出"。
该模型现在可在各种环境中部署——从云端到智能手机再到边缘硬件。它也面向Arcee不断增长的企业客户列表及其需求——特别是在不侵犯知识产权的情况下训练的模型。
正如Arcee在上月的AFM-4.5B初始公告中写道:"我们投入巨大努力排除受版权保护的书籍和许可不明确的材料。"
Arcee表示与第三方数据策划公司DatologyAI合作,应用源混合、基于嵌入的过滤和质量控制等技术,旨在最小化幻觉和知识产权风险。
专注企业客户需求
AFM-4.5B是Arcee.ai对企业采用生成式AI主要痛点的回应:高成本、有限的可定制性,以及对专有大语言模型的监管担忧。
过去一年中,Arcee团队与150多个组织进行了讨论,从初创公司到财富100强公司,以了解现有大语言模型的局限性并定义自己的模型目标。
据该公司称,许多企业发现主流大语言模型——如来自OpenAI、Anthropic或DeepSeek的模型——过于昂贵且难以针对特定行业需求进行定制。与此同时,虽然像Llama、Mistral和Qwen等较小的开放权重模型提供了更多灵活性,但它们引入了关于许可、知识产权来源和地缘政治风险的担忧。
AFM-4.5B被开发为"无妥协"的替代方案:可定制、合规且成本效益高,同时不牺牲模型质量或可用性。
技术架构与训练过程
AFM-4.5B模型使用纯解码器Transformer架构,并进行了多项性能和部署灵活性优化。它集成了分组查询注意力以实现更快推理,并使用ReLU?激活替代SwiGLU以支持稀疏化而不降低准确性。
训练遵循三阶段方法: - 在6.5万亿Token的通用数据上进行预训练 - 在1.5万亿Token上进行中期训练,重点关注数学和代码 - 使用高质量指令遵循数据集和基于可验证及偏好反馈的强化学习进行指令调优
为满足严格的合规和知识产权标准,该模型在近7万亿Token的数据上进行训练,这些数据经过清洁度和许可安全性策划。
竞争性能表现
尽管规模较小,AFM-4.5B在广泛的基准测试中表现出竞争力。指令调优版本在MMLU、MixEval、TriviaQA和Agieval等评估套件中平均得分50.13,与类似规模的模型如Gemma-3 4B-it、Qwen3-4B和SmolLM3-3B匹配或优于它们。
多语言测试显示该模型在10多种语言中表现强劲,包括阿拉伯语、中文、德语和葡萄牙语。
在按用户投票和胜率对对话模型质量进行排名的排行榜中,该模型排名第三,仅次于Claude Opus 4和Gemini 2.5 Pro。它拥有59.2%的胜率和所有顶级模型中最快的延迟0.2秒,配合179Token每秒的生成速度。
内置智能体支持
除了通用功能外,AFM-4.5B还内置了函数调用和智能体推理支持。这些功能旨在简化构建AI智能体和工作流自动化工具的过程,减少对复杂提示工程或编排层的需求。
AFM-4.5B代表了Arcee.ai推动定义企业就绪语言模型新类别的努力:小型、高性能且完全可定制,没有专有大语言模型或开放权重小型语言模型通常带来的妥协。凭借竞争性基准、多语言支持、强大的合规标准和灵活的部署选项,该模型旨在满足企业对速度、主权和规模的需求。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。