今天凌晨2点,OpenAI开启了第四天技术直播,发布了最新功能Canvas。
Canvas直接内置在ChatGPT中,提供了一个单独的窗口,主要用于编程、写作任务,会提供意见、审核和执行具体的功能,可以提供更细致的服务。
例如,当你在编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,帮助ChatGPT提供内联的调试建议快速修复这些错误;当你在写一篇文章时,希望对生成内容进行深度调整时就可以通过Canvas实现。
简单来说,Canvas相当于一个内置Agent来帮助、指导ChatGPT进行更好的内容生成和修改,并且是自动触发的。
例如,可以Canvas帮你写一个关于愚蠢精灵的圣诞故事。会将生成的内容在旁边窗口打开,如果你想对内容里的特定一句话或特定一段内容进行添加或修改,可以直接在对话框中继续发问。
也可以直接对一张图片生成大段文本回应。例如,Alexi给你发了一个圣诞祝贺卡,可以让Canvas帮你生成一份圣诞回信。
Canvas也允许用户直接执行Python 代码,可以编写脚本能够发送网络请求、处理数据并与外部服务进行通信。其实这个功能与Anthropic那个类似,都是很强的代码开发环境集成。
例如,你想把Python代码转换为JavaScript、TypeScript、Java、C++或PHP等,Canvas它能智能地翻译代码,同时尽量保持原有的逻辑结构不变,轻松实现跨语言、平台开发。
Canvas简单介绍
Canvas是一个功能强大的协作平台,为用户开辟了独立的工作页面,在此页面中,用户能够与ChatGPT 携手合作,共同执行各类任务。
用户正在撰写一篇有关 AI 发展的文章,在 Canvas 里开启新文档后,ChatGPT 便能实时给予写作建议,助力优化文章的结构与内容。Canvas 的一大核心亮点在于其出色的上下文感知功能。
当用户在文档中高亮特定部分时,ChatGPT 能够精准理解该部分的上下文情境,进而提供极具针对性的反馈。就像开发者在使用 Python 编写一个用于从 RESTful API 获取数据并展示在网页上的简单 Web 应用程序时,若遇到异常却不知问题所在,Canvas 可精准高亮显示错误之处。
在编码方面,Canvas 提供了代码审查、添加日志、添加注释以及修复错误等便捷操作方式。例如在开发网页应用时,借助 Canvas 进行代码审查,ChatGPT 会给出内联式建议,有效提升代码的性能与可读性。
Canvas还具备版本控制功能,这对于写作与编程工作极为便利,毕竟这些任务往往需要历经多次反复迭代与修改。比如,若用户在编辑期间不慎删除重要内容,利用 Canvas 的后退按钮即可迅速恢复至之前的版本。
此外,Canvas 提供了丰富多样的快捷操作,方便用户快速执行常见的编辑任务。用户可通过快捷菜单要求 ChatGPT 调整文档长度,或是改变文章的阅读难度。倘若用户需要将代码转换至不同的编程语言,Canvas 同样提供了一键移植的实用功能。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。