7B的模型也能玩转AI Agents了?近期,快手开源了Kwai Agents,亲测发现,问它周末滑雪问题,它不但能帮你找到场地,连当天的天气都帮你考虑周到了。
大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但由于无法跟世界保持实时的交互,在单独使用的情况下,常会出现一本正经地胡说八道的现象。而AI Agents就是解决这个问题的道路之一,它通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。
据了解,KwaiAgents是一个先进的AI智能体系统,由快手联合哈尔滨工业大学研发,通过使用大型语言模型来模仿人类认知技能,可应用于自然语言处理、语音识别等领域。Kwai Agents可以使7B/13B的“小”大模型也能达到超越GPT-3.5的效果,目前该项目已将系统、模型、数据、评测全部开源,使得更多的研究人员可以参与其中。
技术报告:https://arxiv.org/abs/2312.04889
项目主页:https://github.com/KwaiKEG/KwaiAgents
从「KwaiAgents」的Github主页中可以看到,本次开源内容包含:
1.系统(KAgentSys-Lite):轻量级AI Agents系统,并配备事实、时效性工具集;
2.模型(KAgentLMs):Meta-Agent Tuning后,具有Agents通用能力的系列大模型及其训练数据;
3.评测(KAgentBench):开箱即用的Agent能力自动化评测Benchmark与人工评测结果。
KAgentBench通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下,各方面的Agents能力。下表显示了经过快手团队调优后,7B-13B模型各项能力的提升,且超越了GPT-3.5的效果:
同时,作者们还请人类标注者在200个事实性和时效性的问题(如“刘德华今年几岁了”),对不同的大模型和Agent系统进行了交叉评估,可以看到KAgentSys系统和MAT之后模型提升显著(百分号前为正确率,括号内为5分制均分)。
通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到“安东内拉比梅西大多少天?”这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用time_delta时间差工具算出年龄差,就能精准回答这个问题了。
快手技术人员表示,AI Agents是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面,也会积极探索Agents技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。
好文章,需要你的鼓励
芬兰阿尔托大学研究团队开发出革命性光学计算方法,利用单束光线实现复杂张量运算。该技术将数字信息编码到光波的振幅和相位中,通过光波相互作用自动完成深度学习所需的矩阵和张量乘法运算。与传统GPU逐步处理不同,光学系统可同时并行执行所有计算操作,运算速度达到光速级别。研究显示该方法具有被动处理、低功耗等优势,预计3-5年内可集成到现有硬件平台,为AI计算带来重大突破。
新加坡科技设计大学研究团队发现,通过控制大型语言模型的"思考语言"可显著提升输出多样性。研究显示,AI用非英语语言思考时能产生更多样化的答案,且距离英语越远的语言效果越好。混合多种语言思考的策略表现最佳,不仅提升创意输出,还增强了文化多元化表达能力,为解决AI输出同质化问题提供了简单有效的方案。
科学家成功将传统公里级粒子加速器缩小至房间大小,并实现商业化。TAU Systems公司开发的激光驱动尾场加速器利用超强激光脉冲产生等离子体,将电子加速至相对论速度。该设备首先用于航天电子设备的辐射测试,能量范围60-100兆电子伏特,成本约1000万美元起。未来还可应用于医疗成像、芯片检测和X射线光刻等领域,有望大幅降低粒子加速器的使用门槛。
浙江大学研究团队开发了PhyRPR三阶段视频生成系统,解决AI视频中物理规律违背问题。该方法将物理理解与视觉生成分离处理:首先用大型语言模型进行物理推理和关键帧生成,然后规划连续运动轨迹,最后通过运动感知技术精化视觉效果。实验证明该方法在物理一致性和视觉质量方面均优于现有技术。