照片和视频编辑平台 VSCO 于星期三推出了一个基于 AI 的协作情绪板,以拓宽摄影师和艺术家对其产品的使用方式。
该情绪板命名为 Canvas,允许用户使用 VSCO 标准编辑工具导入并编辑照片——这样你就可以调整诸如阴影、亮度、曝光、色温、色调、颗粒、模糊、活力和色相等设置。
当你想通过文本提示生成图像时,AI 功能便会发挥作用。情绪板还允许你选择图像的部分区域,并使用 "region prompt" 菜单让 AI 通过文本提示重新生成这些部分。该区域提示的权重可通过滑块进行调节,以生成不同的版本。
另有一个变体按钮,顾名思义,此按钮使得 AI 能为已生成的图像创造出变体。该按钮同样配有滑块,用于控制生成图像与原始图像的相似程度。
用户可以在项目中与他人共享情绪板,并创造出该想法的不同迭代。
VSCO 首席执行官 Eric Wittman 对 TechCrunch 表示: “摄影师通常单独工作,他们会使用 Google Slides 或 Pinterest 为想要展示给客户的项目构思愿景。我们认为应该有一个更适合创意构思的工具,将创作者置于核心位置。”
该情绪板功能采用了来自一家名为 Facet 的图像编辑初创公司的技术,该公司于去年被 VSCO 收购。在被收购之前,Facet 已经筹集了超过 1300 万美元的资金。
这是 VSCO 首次在其产品中应用 AI 功能,公司表示已看到了积极的反响。VSCO 表示,在 Canvas 测试阶段,超过 84% 的内容都是通过 AI 生成的。
公司计划允许用户在 VSCO 上搜索,并将上传到该平台的照片导入至情绪板中。
此次发布是在 Adobe 揭示其自有情绪板,具备 AI 驱动的图像生成和编辑功能的数日之后。诸如 Visual Electric、 Cove 和 Kosmik 等初创公司也曾尝试开发白板和情绪板,协助人们进行创意协作。
Canvas 对所有用户开放,但付费订阅者将获得额外积分,用于通过 AI 模型进行文本提示和图像生成。
好文章,需要你的鼓励
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使生成分钟级长视频成为可能。实验表明,在生成1,025帧视频时,DualParal比现有技术减少了高达6.54倍的延迟和1.48倍的内存成本,同时保持了高质量的视频输出,为内容创作者提供了生成更长、更复杂视频叙事的新工具。
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型相比,SoloSpeech采用无需说话者嵌入的设计,直接利用提示音频的潜在空间信息与混合音频对齐,有效避免特征不匹配问题。在Libri2Mix及多个真实世界数据集上的评测显示,SoloSpeech在清晰度、质量和泛化能力上均达到了领先水平,为语音分离技术开辟了新方向。
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始帧形成平衡影响,从而生成更自然流畅的中间过渡帧。实验证明,该方法在各种场景下都优于现有技术,特别适用于电影制作、动画创作和视频编辑领域,显著降低了人力成本。
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反思性探索,在数学推理任务上展现出显著优势,比基线方法减少高达50%的标记使用量,同时提高了准确率。这一研究不仅解释了"为什么反思有用",还提供了实用的指导原则,为AI系统的自适应推理能力开辟了新方向。