谷歌发布文生图模型Imagen 3,写实效果超强!
Imagen3在理解文本提示方面比前两代更好,可捕捉长文本提示中的很多细微细节,对图片的嵌入文字生成也更加准确、稳定。
?
?谷歌在“I/O2024”大会上发布了,全新文生图片模型Imagen3。
据悉,Imagen3在理解文本提示方面比前两代更好,可捕捉长文本提示中的很多细微细节,对图片的嵌入文字生成也更加准确、稳定。
Imagen3可生成漫画、写实、赛博朋克、水墨、油画、素描等几十种风格,尤其是生成的写实风格图片质量很好,和真人拍摄的相片几乎差不多。
目前,Imagen3支持申请试用,有兴趣的小伙伴可以去体验下。
可申请体验:https://docs.google.com/forms/d/e/1FAIpQLSeC6n1KQlaqRNUGNuNRt5Q7YeoyXsq828niw2ZvIoAtW1FtYQ/viewform?resourcekey=0-qDKZCeB4G9nS9dttXGdnHQ&pli=1
在谷歌展示的Imagen3案例中,其生成写实图片的能力非常强可比肩Midjourney DALL·E 3 等头部产品。
例如,用单反相机和偏振滤镜拍摄。这是在土耳其卡帕多西亚独特的岩石形态上空漂浮的两个热气球的照片。这些热气球上的颜色和图案与下方土地的土色形成了美丽的对比。
一张特写照片,展示一只折纸鸟在城市天际线中翱翔,与其他不同颜色和图案的鸟群一起,投射出复杂的阴影在下方的建筑物上。
三名女性站在一起爽朗大笑,前景中有一名女性略微模糊。太阳在她们身后落山,形成了镜头光晕和温暖的光芒,突显了她们的头发,并在背景中产生了浅景深效果。
摄影风格真实自然,捕捉到了朋友之间真挚的连接和快乐时刻。黄金时刻的温暖光线赋予了图像怀旧和亲密的感觉。
一头优雅的狼站在灰色背景前,特写镜头展现其雄姿,高分辨率照片展现了丰富的细节,色彩梯度采用超现实风格。
从上面看到美丽的河谷,有树木展示了其令人惊叹的自然美景,绿色的山脉和蓝色的水。捕捉了大自然创造的广阔风貌,写实风格。
一双磨损严重、沾满泥巴的徒步皮靴,静静地躺在崎岖的小径上。一只松鼠的头从其中一只靴子里探出来,懒洋洋地看着镜头,仿佛这是它的领地。
两只靴子的鞋带松松地垂落在地上。背景是多山的景色。这是一张电影般的静止画面,用高质量的数码单反相机拍摄。
除了写实风格照片,谷歌还展示了其他类型风格的图片,例如,一个风化的木制机械机器人被开满鲜花的藤蔓覆盖,安静地站在一片高大的野花田中,一只小蓝鸟停在它伸出的手上。数字卡通、色彩温暖、线条柔和。后面是一座高大的瀑布悬崖。
桌子上放着一个旧蓝色玻璃花瓶里的一大束色彩斑斓的花。前面是一朵美丽的牡丹花,周围有玫瑰、百合、雏菊、兰花、水果、浆果和绿叶等各种其他花朵。背景是深灰色。这是荷兰黄金时代风格的油画。
从上面这些案例不难看出,Imagen3在文本语义还原、光影、饱和度、景深、构图等方面比前两代更出色,几乎和真人拍摄的图片差不多,这对于游戏开发、市场营销、日常办公等人员,提供快速设计图片的捷径。
谷歌表示,为了满足不同领域用户的创作需求,Imagen3将推出多个版本,包括从快速草图到高分辨率图像等各类任务优化。目前,Imagen3支持申请使用,并很快将在VertexAI上全面推广使用。
0赞好文章,需要你的鼓励
推荐文章
CIO们正面临众多复杂挑战,其多样性值得关注。除了企业安全和成本控制等传统问题,人工智能快速发展和地缘政治环境正在颠覆常规业务模式。主要挑战包括:AI技术快速演进、IT部门AI应用、AI网络攻击威胁、AIOps智能运维、快速实现价值、地缘政治影响、成本控制、人才短缺、安全风险管理以及未来准备等十个方面。
北航团队发布AnimaX技术,能够根据文字描述让静态3D模型自动生成动画。该系统支持人形角色、动物、家具等各类模型,仅需6分钟即可完成高质量动画生成,效率远超传统方法。通过多视角视频-姿态联合扩散模型,AnimaX有效结合了视频AI的运动理解能力与骨骼动画的精确控制,在16万动画序列数据集上训练后展现出卓越性能。
过去两年间,许多组织启动了大量AI概念验证项目,但失败率高且投资回报率令人失望。如今出现新趋势,组织开始重新评估AI实验的撒网策略。IT观察者发现,许多组织正在减少AI概念验证项目数量,IT领导转向商业AI工具,专注于有限的战略性目标用例。专家表示,组织正从大规模实验转向更专注、结果导向的AI部署,优先考虑能深度融入运营工作流程并产生可衡量结果的少数用例。
这项研究解决了AI图片描述中的两大难题:描述不平衡和内容虚构。通过创新的"侦探式追问"方法,让AI能生成更详细准确的图片描述,显著提升了多个AI系统的性能表现,为无障碍技术、教育、电商等领域带来实用价值。