Canva在周四的秋季产品发布会上推出了一系列全新的AI产品和功能,但这个技术性较强、看似平淡的新功能实际上可能最具前景。Canva开发了一个全新的设计基础AI模型,该模型有望解决AI图像领域的一个重大痛点。
基础模型是在后台运行处理AI请求的数字框架。传统的扩散模型只能创建"平面"图像,并为许多早期AI图像生成器提供支持。在过去几年中,这些模型已升级为全能大语言模型——基本上,它们具备多模态能力(可处理文本、图像和其他输入),变得更具上下文感知能力,并且能够处理更复杂的任务。对于图像生成器而言,这意味着它可以处理参考图像等功能。
Canva的新模型工作方式略有不同。它在保持上下文感知能力的同时分层生成图像。这对用户的意义在于,你将能够选择AI生成图像中的特定元素,并使用Canva的所有编辑工具对其进行调整。你不再需要为了修复一个小错误而重新生成整个图像,这是一个巨大的用户体验升级。
Canva凭借让每个人都能轻松进行设计的承诺,特别是对我们这些非Photoshop专家而言,已成为一家估值650亿美元的公司。AI图像生成器尽管不乏争议和担忧,但目标是实现同样的目标。我使用过许多不同的AI图像程序,有一点始终让我失望,那就是它们的后期编辑工具。许多程序即使有编辑功能,也非常基础。有时编辑甚至会让错误变得更糟。因此,用Canva众多一键工具编辑AI图像的想法不仅很有吸引力,还应该让其他AI图像公司引起重视。
Canva全球产品负责人Robert Kawalsky在采访中表示:"通过Canva的基础模型,你可以从提示词直接生成完全可编辑的分层设计。你可以利用Canva编辑器的丰富功能,点击任何元素、任何组件,并像处理手动创建的设计一样对其进行操作和修改。这确实是一个根本性的转变。"
虽然Canva是第一家发布基于分层的AI图像编辑功能的主要设计公司,但不会是最后一家。Adobe生成式AI副总裁Alexandru Costin在本周Adobe Max大会的采访中告诉我,该公司计划在不久的将来发布类似功能。对于使用创意AI工具的设计师和插画师来说,编辑能力仍然是首要关注点。
这里还有另一个优势:Canva的内部AI图像生成器对初学者很友好,但在同类产品中并不是最出色的。这个新模型应该会带来更强的功能。
此次还有很多其他更新,包括制作数据采集表单的功能、类似Premiere Pro的新视频时间轴以及符合HTML标准的电子邮件模板。你还可以复制某个素材的艺术风格并将其应用到其他对象上。但另一个重大消息实际上与Canva去年的一项收购有关——Affinity。
Canva在2024年收购了专业设计程序Affinity,现在Canva用户将能够免费使用Affinity,无需订阅,永久免费。这是一个令人惊讶的选择,使Affinity无疑成为专业编辑软件中最实惠的选择,远超Adobe日益昂贵的Creative Cloud订阅服务。
Canva上一次的重大更新也专注于AI,主要帮助用户完成编程等STEM相关任务。
Q&A
Q1:Canva的新基础AI模型有什么特别之处?
A:Canva的新基础AI模型最大特点是能够在保持上下文感知能力的同时分层生成图像,这意味着用户可以选择AI生成图像中的特定元素并使用Canva的所有编辑工具进行调整,而不需要重新生成整个图像。
Q2:这个新模型解决了AI图像编辑的什么问题?
A:传统AI图像生成器的后期编辑工具通常很基础,有时编辑甚至会让错误变得更糟,用户经常需要为了修复小错误而重新生成整个图像。Canva的新模型通过分层编辑功能解决了这个痛点。
Q3:除了AI图像编辑,Canva还推出了哪些新功能?
A:Canva还推出了制作数据采集表单、类似Premiere Pro的视频时间轴、HTML标准电子邮件模板、艺术风格复制粘贴等功能。同时,Canva用户现在可以永久免费使用专业设计软件Affinity。
好文章,需要你的鼓励
TPU与GPU之间的竞争正在重塑AI硬件市场格局。GPU基于并行处理,能处理多样化任务,而TPU专门针对张量矩阵运算进行优化。谷歌TPU采用类似RISC的设计理念,通过限制功能来提升特定运算效率。随着Meta计划在2027年采购数十亿美元的TPU芯片,Anthropic宣布使用百万TPU训练Claude模型,TPU生态系统正在获得发展动力,对英伟达的GPU霸主地位构成挑战。
Meta与华盛顿大学联合研究团队开发出无需人类标注的AI评判官自我训练框架。该方法通过生成合成对比数据、自我判断筛选和反复学习,使110亿参数的AI评判官在多项视觉语言任务中超越GPT-4o等大型模型,成本仅为传统方法的1%,为AI自主学习和评估开辟新路径。
本文提出2026年AI发展十大预测,包括AI估值修正、投资泡沫持续、AGI不仅依赖大语言模型、AI代理将加剧工作替代等。作者强调社会接受度对技术发展的重要性,认为成功企业将重构运营模式以AI为核心,同时指出政府仍将重视STEM教育而忽视社会科学的价值。
华中科技大学团队开发出4DLangVGGT技术,首次实现AI系统对4D动态场景的语言理解。该技术突破传统方法需要逐场景训练的限制,能跨场景通用部署。系统结合几何感知和语义理解,不仅能识别物体还能描述其时间变化过程。实验显示在多项指标上超越现有方法1-2%,为机器人、AR/VR、智能监控等领域提供重要技术支撑。