如果说2024年最热门、最硬核的科技话题是什么,那一定是生成式AI。
现在,下至八岁小童,上至八十老太,无人不知生成式AI。
毕竟,生成式AI正在成为颠覆人类生活的又一项全球性科技潮流,也正在重塑全社会的工作技能。
在生成式AI席卷全球的这两年里,提示工程正在成长为新的万亿级市场,提示工程师正在成为这个时代程序员般的Superman。
未来十年,全球即将迎来的工程师红利,或将是提示工程师红利。
为此,我们PEC·AI创新者大会组委会筹备了三个月,内部经历了无数次头脑风暴,特别策划了一场——2024 AI创新者大会暨PEC·提示工程峰会。
在这场大会上,你将听到哪些前沿话题?
首先,我们邀请到了中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任、中国自动化学会监事长王飞跃为我们带来年度趋势解读。
王飞跃教授作为智能控制领域早期开拓者和国际知名学者,早在1998年作为中国科学院和国家计划委员会引入海外杰出人才之一回国工作,并在中国科学院自动化研究所创立智能控制与系统工程中心。
与此同时,王飞跃教授和他的团队在提示工程方面也深有研究,他在相关研究中曾特别指出,以语言大模型和视觉大模型为代表的生成式AI虽然在任务生成和理解任务上表现突出,但在处理特定任务上仍有一定挑战,提示工程不需要调整模型参数,直接通过多模态提示引导大模型执行任务,成为了解决这些问题的一种有效手段。
更多关于人工智能、提示工程、智能生态方面的趋势,王飞跃教授将在现场的《人工智能迭代中的提示、对齐、引导工程:从新AI和知识自动化到系统智能生态》演讲中进行详细解读。
其次,我们邀请到了:
国内人工智能领域的权威产业研究机构——中国信通院人工智能研究所所长魏凯,
国内大模型基础设施的关键构建者——智谱AI首席生态官刘江,
致力于降低大模型应用成本和开发门槛的先导企业——硅基流动创始人袁进辉,
智能生态构建者——钉钉副总裁、解决方案&战略客户总经理邱达,
人工智能技术深度的研究者和应用者——邮储银行RPA+AI创新实验室负责人潘淳。
集结人工智能“产、研、用”超强阵容,与现场千位AI创新者,一起解读2024,预计2025。
然后,我们PEC·AI创新者大会组委会经过与产业多轮交流和内部研讨,特别就人工智能技术日新月异的2024年抽丝剥茧,分别就凝练出三个人工智能关键问题,并基于此,组委会特别提出了2024人工智能三大年度问题:
年度提问一:取代还是取巧,如何用AI打造超级个体?
年度提问二:路演还是路线,如何让AI落地企业场景?
年度提问三:创业还是创收,如何帮AI产品适配市场?
针对三大年度提问,我们邀请了二十多位分别来自戴尔、阿里等全球科技大厂的AI专家,智谱AI、影智科技等AI明星团队负责人,清研载物、清控科创等投资领域投资人……
共同就三大年度提问,进行一场开放、开源的年终深度访谈。
此外,在年度峰会和三大专题论坛中,你还将会在现场聆听到Prompt大神李继刚关于提示工程的思辨、LangGPT创始人云中江树关于自然语言编程的摸索、BISHENG作者覃睿的独立开发手记……
AI创新者年终千人聚会,就在明天!
更多AI大神、明星团队主理人,等你现场偶遇!
让我们一起在这个AI新纪元,深入感受“一句提示词,一个新世界”。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。