7B的模型也能玩转AI Agents了?近期,快手开源了Kwai Agents,亲测发现,问它周末滑雪问题,它不但能帮你找到场地,连当天的天气都帮你考虑周到了。
大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但由于无法跟世界保持实时的交互,在单独使用的情况下,常会出现一本正经地胡说八道的现象。而AI Agents就是解决这个问题的道路之一,它通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。
据了解,KwaiAgents是一个先进的AI智能体系统,由快手联合哈尔滨工业大学研发,通过使用大型语言模型来模仿人类认知技能,可应用于自然语言处理、语音识别等领域。Kwai Agents可以使7B/13B的“小”大模型也能达到超越GPT-3.5的效果,目前该项目已将系统、模型、数据、评测全部开源,使得更多的研究人员可以参与其中。
技术报告:https://arxiv.org/abs/2312.04889
项目主页:https://github.com/KwaiKEG/KwaiAgents
从「KwaiAgents」的Github主页中可以看到,本次开源内容包含:
1.系统(KAgentSys-Lite):轻量级AI Agents系统,并配备事实、时效性工具集;
2.模型(KAgentLMs):Meta-Agent Tuning后,具有Agents通用能力的系列大模型及其训练数据;
3.评测(KAgentBench):开箱即用的Agent能力自动化评测Benchmark与人工评测结果。
KAgentBench通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下,各方面的Agents能力。下表显示了经过快手团队调优后,7B-13B模型各项能力的提升,且超越了GPT-3.5的效果:
同时,作者们还请人类标注者在200个事实性和时效性的问题(如“刘德华今年几岁了”),对不同的大模型和Agent系统进行了交叉评估,可以看到KAgentSys系统和MAT之后模型提升显著(百分号前为正确率,括号内为5分制均分)。
通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到“安东内拉比梅西大多少天?”这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用time_delta时间差工具算出年龄差,就能精准回答这个问题了。
快手技术人员表示,AI Agents是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面,也会积极探索Agents技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。