近日,快手在短视频评论开始内测「快手AI玩评」,用户可以通过输入各种创意文字,一键生成海量风格图片,可以更轻松、便捷地在评论区进行趣味互动。这是继“AI对话”之后,快手在短视频场景内落地的又一AIGC能力。
据悉。快手“AI玩评”依托于快手自研文生图大模型“可图”(Kolors)强大的图像生成能力实现。可图大模型能够基于开放式文本生成风格多样、画质精美、创意十足的绘画作品,让用户可以轻松高效地完成艺术创作。这也是快手AI团队在大语言模型「快意」之后,再次公布了其在AIGC领域的最新突破和布局。
随着AI技术的不断突破创新,AIGC未来会成为内容创作者“突破边界”的工具,它会让更多“脑中有画面,心中有故事”的人能够进行更轻松、高效的创作。据了解,可图大模型的三大特点保证了出色的图像生成效果:
首先,强大的文本理解能力。快手AI构建了数十亿的图文训练数据,数据来自开源社区、内部构建和自研AI技术合成。这些数据覆盖了常见的三千万中文实体概念,兼具世界知识。在此基础上训练研发了一个强大的中文CLIP模型,不仅懂我们的语言,也更懂中文世界的图像;其次,快手AI利用自研的中文LLM,融合CLIP的图文特征作为文生图的文本理解模块,不但实现了中文特色概念的理解,更解决了复杂概念、属性混淆等文生图领域常见问题。
其次,丰富的细节刻画。快手AI研究团队更改了去噪算法的底层公式和加噪公式;同时精选了一批高细节、高美感的优质数据,在模型学习的后期进行有侧重学习。实现了单一基座模型在主体完整的前提下,可生成具有丰富细节和纹理的图片。同时,基座模型也实现了输入图片,输出细节丰富图片的图生图能力。
第三,多样的风格转化。可图大模型具有基于Prompt的自动学习模型,基于知识的理解与扩充,为用户提供不同的风格模版。依据提示词自动扩充模块,可以丰富化用户描述,包括风格、构图、视觉要素等。配合强大的文生图基座模型,Kolors 可以帮助用户准确理解自己的需求,通过简单描述即可生成多样化风格的图片。
在可图大模型强大的图像生成能力背后,是快手AI团队在多模态内容理解和生成方面的长期积累,和在大模型领域的持续创新性探索。
据了解,从8月下旬开始,快手AI团队已在公司内部开启了可图大模型平台的内测,面向内部业务团队提供丰富全面的AI绘画创作能力,并支持网页版工具和标准化API两种使用方式。
快手AI团队表示,「可图」大模型仍在持续优化效果、丰富能力。未来,可图将会与快手的更多业务开展合作,用AI技术丰富业务的想象力,探索更多有趣、有价值的创新应用落地,让人机共创成为现实。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。