Together Computer Inc. 今天推出了其 Fine-Tuning Platform(微调平台)的一项重大更新,旨在让开发者能够以更低廉且便捷的方式,随着时间的推移调整开源大语言模型。
这家以 Together AI 名义运营的初创公司经营着一个针对 AI 模型开发优化的公有云。新增功能支持在浏览器内进行微调,从而无需安装 Python 软件开发工具包或调用应用程序接口。
公司还新增了对直接偏好优化微调的支持,以及通过单个命令从先前运行结果中启动微调作业的功能。同时,其也调整了定价以降低训练成本。
Together AI 表示,这些更新反映了他们的信念: AI 模型不应是静态的,而应与所服务的应用程序共同进化。基于浏览器的界面允许开发者在无需编写任何代码的情况下启动微调作业。此前,这类任务需要额外的设置和专业技能。开发者可以上传数据集、定义训练参数并跟踪实验,从而降低持续微调的门槛。
Together AI 的微调产品负责人 Anirudh Jain 表示:“虽然质量上没有固有提升,因为底层方法与通过 API 进行微调完全相同,但基于浏览器的流程消除了脚本编写的需要,并将整个过程简化为直观的无代码体验。这使得非技术用户也能轻松进行微调,并比手动使用 API 的方法节省大约 50% 的时间。”他还指出,Python SDK 和 API 仍然可用,但并非必需。
Preference-based training 直接偏好优化是一种利用偏好数据训练语言模型的方法,在这种方法中,模型会针对同一提示同时展示一个较优响应与一个较差响应。模型不再仅仅模仿固定答案,而是通过对比损失函数,根据人类反馈学习偏好某些响应。该方法教会模型在其表示空间中将相似内容拉近距离,而将不相似内容推远。
Jain 说:“监督微调(SFT)帮助模型学会应说什么,而直接偏好优化(DPO)则教会模型不该说什么。”在使用标注的输入/输出对时,通常采用监督微调,而当训练数据包含来自人工评分者或 A/B 测试的偏好信息时,则采用 DPO。
与传统的强化学习技术不同,DPO 无需额外构建单独的奖励模型,因此其实现更为简单、迅速且稳定。开发者可以微调模型,使其更加符合用户与应用程序交互的方式,从而提升准确性和可信度。
持续训练允许开发者从先前训练的模型检查点继续进行微调。此功能对于随着时间的推移不断完善模型,或运行结合指令微调与偏好优化等方法的多阶段训练工作流非常有用。调用方式是通过引用先前训练作业的任务 ID,并从上一次任务结束后继续构建。
Jain 表示:“这大幅提升了效率和成本效益,使得模型迭代和改进的速度更快。”
平台的另一个改进允许开发者为对话数据中的消息分配不同权重,从而在不将其完全从训练上下文中移除的前提下,对某些响应进行降低优先级或忽略。同时,全新的余弦学习率调度器为训练动态提供了更大的灵活性和更精细的控制。
公司表示,对平台数据预处理引擎的更新已使大规模训练任务的性能提高最多达 32%,而小规模任务提高约 17%。
为了帮助小团队及独立开发者更便捷地尝试定制的大语言模型,Together AI 现还提供按需付费的定价模式,无最低消费限制。价格会根据模型大小和训练方法而有所不同。
目前,该平台支持对流行的开源模型进行微调,包括 Llama 3、Gemma 和 DeepSeek-R1 变体。公司表示未来计划支持更大规模的模型,如 Llama 4 及未来的 DeepSeek 版本。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。