Together Computer Inc. 今天推出了其 Fine-Tuning Platform(微调平台)的一项重大更新,旨在让开发者能够以更低廉且便捷的方式,随着时间的推移调整开源大语言模型。
这家以 Together AI 名义运营的初创公司经营着一个针对 AI 模型开发优化的公有云。新增功能支持在浏览器内进行微调,从而无需安装 Python 软件开发工具包或调用应用程序接口。
公司还新增了对直接偏好优化微调的支持,以及通过单个命令从先前运行结果中启动微调作业的功能。同时,其也调整了定价以降低训练成本。
Together AI 表示,这些更新反映了他们的信念: AI 模型不应是静态的,而应与所服务的应用程序共同进化。基于浏览器的界面允许开发者在无需编写任何代码的情况下启动微调作业。此前,这类任务需要额外的设置和专业技能。开发者可以上传数据集、定义训练参数并跟踪实验,从而降低持续微调的门槛。
Together AI 的微调产品负责人 Anirudh Jain 表示:“虽然质量上没有固有提升,因为底层方法与通过 API 进行微调完全相同,但基于浏览器的流程消除了脚本编写的需要,并将整个过程简化为直观的无代码体验。这使得非技术用户也能轻松进行微调,并比手动使用 API 的方法节省大约 50% 的时间。”他还指出,Python SDK 和 API 仍然可用,但并非必需。
Preference-based training 直接偏好优化是一种利用偏好数据训练语言模型的方法,在这种方法中,模型会针对同一提示同时展示一个较优响应与一个较差响应。模型不再仅仅模仿固定答案,而是通过对比损失函数,根据人类反馈学习偏好某些响应。该方法教会模型在其表示空间中将相似内容拉近距离,而将不相似内容推远。
Jain 说:“监督微调(SFT)帮助模型学会应说什么,而直接偏好优化(DPO)则教会模型不该说什么。”在使用标注的输入/输出对时,通常采用监督微调,而当训练数据包含来自人工评分者或 A/B 测试的偏好信息时,则采用 DPO。
与传统的强化学习技术不同,DPO 无需额外构建单独的奖励模型,因此其实现更为简单、迅速且稳定。开发者可以微调模型,使其更加符合用户与应用程序交互的方式,从而提升准确性和可信度。
持续训练允许开发者从先前训练的模型检查点继续进行微调。此功能对于随着时间的推移不断完善模型,或运行结合指令微调与偏好优化等方法的多阶段训练工作流非常有用。调用方式是通过引用先前训练作业的任务 ID,并从上一次任务结束后继续构建。
Jain 表示:“这大幅提升了效率和成本效益,使得模型迭代和改进的速度更快。”
平台的另一个改进允许开发者为对话数据中的消息分配不同权重,从而在不将其完全从训练上下文中移除的前提下,对某些响应进行降低优先级或忽略。同时,全新的余弦学习率调度器为训练动态提供了更大的灵活性和更精细的控制。
公司表示,对平台数据预处理引擎的更新已使大规模训练任务的性能提高最多达 32%,而小规模任务提高约 17%。
为了帮助小团队及独立开发者更便捷地尝试定制的大语言模型,Together AI 现还提供按需付费的定价模式,无最低消费限制。价格会根据模型大小和训练方法而有所不同。
目前,该平台支持对流行的开源模型进行微调,包括 Llama 3、Gemma 和 DeepSeek-R1 变体。公司表示未来计划支持更大规模的模型,如 Llama 4 及未来的 DeepSeek 版本。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。