专注于为商业和企业用途开发小型AI模型的初创公司Arcee.ai,现已开放其AFM-4.5B模型供小型公司有限免费使用。该公司在Hugging Face上发布了模型权重,并允许年收入低于175万美元的企业在自定义的"Arcee模型许可证"下免费使用。
这个45亿参数的模型专为现实世界的企业应用而设计,相比数百亿到万亿参数的前沿模型要小得多,在紧凑的占用空间内结合了成本效益、合规性和强大性能。
AFM-4.5B是Arcee上月发布的两部分版本之一,已经经过"指令调优",是一个"指令"模型,专为聊天、检索和创意写作而设计,可以立即在企业中部署用于这些用例。当时还发布了另一个基础模型,该模型未经指令调优,仅经过预训练,为客户提供更多定制性。然而,这两个模型此前都只能通过商业许可条款获得。
Arcee首席技术官Lucas Atkins在X平台上发帖表示,更多"专门用于推理和工具使用的模型即将推出"。
该模型现在可在各种环境中部署——从云端到智能手机再到边缘硬件。它也面向Arcee不断增长的企业客户列表及其需求——特别是在不侵犯知识产权的情况下训练的模型。
正如Arcee在上月的AFM-4.5B初始公告中写道:"我们投入巨大努力排除受版权保护的书籍和许可不明确的材料。"
Arcee表示与第三方数据策划公司DatologyAI合作,应用源混合、基于嵌入的过滤和质量控制等技术,旨在最小化幻觉和知识产权风险。
专注企业客户需求
AFM-4.5B是Arcee.ai对企业采用生成式AI主要痛点的回应:高成本、有限的可定制性,以及对专有大语言模型的监管担忧。
过去一年中,Arcee团队与150多个组织进行了讨论,从初创公司到财富100强公司,以了解现有大语言模型的局限性并定义自己的模型目标。
据该公司称,许多企业发现主流大语言模型——如来自OpenAI、Anthropic或DeepSeek的模型——过于昂贵且难以针对特定行业需求进行定制。与此同时,虽然像Llama、Mistral和Qwen等较小的开放权重模型提供了更多灵活性,但它们引入了关于许可、知识产权来源和地缘政治风险的担忧。
AFM-4.5B被开发为"无妥协"的替代方案:可定制、合规且成本效益高,同时不牺牲模型质量或可用性。
技术架构与训练过程
AFM-4.5B模型使用纯解码器Transformer架构,并进行了多项性能和部署灵活性优化。它集成了分组查询注意力以实现更快推理,并使用ReLU?激活替代SwiGLU以支持稀疏化而不降低准确性。
训练遵循三阶段方法: - 在6.5万亿Token的通用数据上进行预训练 - 在1.5万亿Token上进行中期训练,重点关注数学和代码 - 使用高质量指令遵循数据集和基于可验证及偏好反馈的强化学习进行指令调优
为满足严格的合规和知识产权标准,该模型在近7万亿Token的数据上进行训练,这些数据经过清洁度和许可安全性策划。
竞争性能表现
尽管规模较小,AFM-4.5B在广泛的基准测试中表现出竞争力。指令调优版本在MMLU、MixEval、TriviaQA和Agieval等评估套件中平均得分50.13,与类似规模的模型如Gemma-3 4B-it、Qwen3-4B和SmolLM3-3B匹配或优于它们。
多语言测试显示该模型在10多种语言中表现强劲,包括阿拉伯语、中文、德语和葡萄牙语。
在按用户投票和胜率对对话模型质量进行排名的排行榜中,该模型排名第三,仅次于Claude Opus 4和Gemini 2.5 Pro。它拥有59.2%的胜率和所有顶级模型中最快的延迟0.2秒,配合179Token每秒的生成速度。
内置智能体支持
除了通用功能外,AFM-4.5B还内置了函数调用和智能体推理支持。这些功能旨在简化构建AI智能体和工作流自动化工具的过程,减少对复杂提示工程或编排层的需求。
AFM-4.5B代表了Arcee.ai推动定义企业就绪语言模型新类别的努力:小型、高性能且完全可定制,没有专有大语言模型或开放权重小型语言模型通常带来的妥协。凭借竞争性基准、多语言支持、强大的合规标准和灵活的部署选项,该模型旨在满足企业对速度、主权和规模的需求。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。