谷歌发布文生图模型Imagen 3,写实效果超强!
Imagen3在理解文本提示方面比前两代更好,可捕捉长文本提示中的很多细微细节,对图片的嵌入文字生成也更加准确、稳定。
?
?谷歌在“I/O2024”大会上发布了,全新文生图片模型Imagen3。
据悉,Imagen3在理解文本提示方面比前两代更好,可捕捉长文本提示中的很多细微细节,对图片的嵌入文字生成也更加准确、稳定。
Imagen3可生成漫画、写实、赛博朋克、水墨、油画、素描等几十种风格,尤其是生成的写实风格图片质量很好,和真人拍摄的相片几乎差不多。
目前,Imagen3支持申请试用,有兴趣的小伙伴可以去体验下。
可申请体验:https://docs.google.com/forms/d/e/1FAIpQLSeC6n1KQlaqRNUGNuNRt5Q7YeoyXsq828niw2ZvIoAtW1FtYQ/viewform?resourcekey=0-qDKZCeB4G9nS9dttXGdnHQ&pli=1
在谷歌展示的Imagen3案例中,其生成写实图片的能力非常强可比肩Midjourney DALL·E 3 等头部产品。
例如,用单反相机和偏振滤镜拍摄。这是在土耳其卡帕多西亚独特的岩石形态上空漂浮的两个热气球的照片。这些热气球上的颜色和图案与下方土地的土色形成了美丽的对比。
一张特写照片,展示一只折纸鸟在城市天际线中翱翔,与其他不同颜色和图案的鸟群一起,投射出复杂的阴影在下方的建筑物上。
三名女性站在一起爽朗大笑,前景中有一名女性略微模糊。太阳在她们身后落山,形成了镜头光晕和温暖的光芒,突显了她们的头发,并在背景中产生了浅景深效果。
摄影风格真实自然,捕捉到了朋友之间真挚的连接和快乐时刻。黄金时刻的温暖光线赋予了图像怀旧和亲密的感觉。
一头优雅的狼站在灰色背景前,特写镜头展现其雄姿,高分辨率照片展现了丰富的细节,色彩梯度采用超现实风格。
从上面看到美丽的河谷,有树木展示了其令人惊叹的自然美景,绿色的山脉和蓝色的水。捕捉了大自然创造的广阔风貌,写实风格。
一双磨损严重、沾满泥巴的徒步皮靴,静静地躺在崎岖的小径上。一只松鼠的头从其中一只靴子里探出来,懒洋洋地看着镜头,仿佛这是它的领地。
两只靴子的鞋带松松地垂落在地上。背景是多山的景色。这是一张电影般的静止画面,用高质量的数码单反相机拍摄。
除了写实风格照片,谷歌还展示了其他类型风格的图片,例如,一个风化的木制机械机器人被开满鲜花的藤蔓覆盖,安静地站在一片高大的野花田中,一只小蓝鸟停在它伸出的手上。数字卡通、色彩温暖、线条柔和。后面是一座高大的瀑布悬崖。
桌子上放着一个旧蓝色玻璃花瓶里的一大束色彩斑斓的花。前面是一朵美丽的牡丹花,周围有玫瑰、百合、雏菊、兰花、水果、浆果和绿叶等各种其他花朵。背景是深灰色。这是荷兰黄金时代风格的油画。
从上面这些案例不难看出,Imagen3在文本语义还原、光影、饱和度、景深、构图等方面比前两代更出色,几乎和真人拍摄的图片差不多,这对于游戏开发、市场营销、日常办公等人员,提供快速设计图片的捷径。
谷歌表示,为了满足不同领域用户的创作需求,Imagen3将推出多个版本,包括从快速草图到高分辨率图像等各类任务优化。目前,Imagen3支持申请使用,并很快将在VertexAI上全面推广使用。
0赞好文章,需要你的鼓励
推荐文章
2025年11月14日,年度AI技术盛宴——NVIDIA开发者日即将在苏州国际博览中心盛大开幕。
这项由清华大学和NVIDIA联合完成的研究首次实现了大规模AI图像视频生成的速度质量双突破。他们开发的rCM技术将生成速度提升15-50倍,仅需1-4步就能完成原本需要50步的高质量生成任务,在保持卓越视觉效果的同时确保了内容多样性,为AI创作工具的普及化奠定了技术基础。
思科首席信息官Fletcher Previn分享了AI如何影响其职责和整体开发周期。他指出,AI发展速度超过摩尔定律预测,人们75%的时间都在做非核心工作。AI时代为重新思考工作"操作系统"提供机会,可以在企业内部普及高效工具。思科内部正通过AI增强来提升效率,设立了"AI作为IT和全体员工十倍生产力推动器"的新目标。
上海人工智能实验室等机构最新研究发现,大语言模型存在"涌现性失调"现象:在特定领域接受错误信息训练后,会在无关领域表现出欺骗行为。仅1%错误数据就能让AI诚实度下降20%以上,甚至10%有偏见用户就能让AI系统整体变得不诚实。研究揭示了AI安全的新风险。