AI 图像生成器 Midjourney 今天发布了其时隔许久的首个新模型。这个被称为 V7 的模型是一次从零开始的重构,目前已向用户开放 alpha 测试版本。
V7 在两个方面有所改进:首先是更好的图像质量,其次是新的工具和工作流程。
在图像改进方面,V7 承诺在手部、手指、身体部位和"各类物体"方面提供更高的连贯性和一致性。同时还能呈现更加细致和逼真的纹理与材质效果,比如皮肤皱纹或陶瓷罐的细微特征。
这些细节通常是辨识图像是否由 AI 生成的最明显特征。需要明确的是,Midjourney 并不是声称已经取得了让 AI 图像完全无法被专业人士识别的突破;而是表示已经大幅改善了我们习以为常的一些瑕疵。
在功能方面,最大亮点是新增的"草稿模式"。Midjourney 在其各种用户沟通渠道 (博客、Discord、X 等) 上表示,"草稿模式的成本只有一半,渲染速度提高了 10 倍。"
不过,草稿模式生成的图像质量低于其他模式,因此并不适合用于生成最终成品。相反,它旨在帮助用户快速迭代和探索,找到理想效果后再切换到其他模式来生成适合公开使用的图像。
V7 提供两种模式:turbo 和 relax。Turbo 模式能快速生成最终图像,但信用点数消耗是两倍;而 relax 模式虽然处理时间较长,但只需要一半的成本。奇怪的是,V7 目前没有标准模式;Midjourney 表示这需要更多时间完善,将在后续推出。
V7 支持之前版本的大多数参数 (--ar、--seed 等),包括用户现有的 6.1 版本的 --sref 代码,以及最近推出的个性化功能。事实上,V7 是第一个默认启用个性化功能的 Midjourney 模型,这意味着用户需要选择至少 200 张图片来构建其美学偏好档案。
个性化功能会多次让用户在两张图片中进行选择,以此学习用户认为"美"的标准,从而根据这些品味定制生成内容。不过,和之前的模型一样,用户也可以选择在 V7 中关闭个性化功能。
Midjourney 是最早获得广泛应用的 AI 图像生成工具之一。最初它只能在 Discord 上使用,需要通过一些略显晦涩的语法操作,但现在已经推出了更现代化的网页界面。
社交媒体上分享的大量 AI 艺术作品都是通过 Discord 制作的。它也是许多 AI 视频创作者工作流程中的重要组成部分,他们通常先在 Midjourney 中创建初始图像,然后使用 Runway 等应用的图像转视频功能。
尽管非常受欢迎,Midjourney 仍面临多起诉讼,并卷入了一场持续的争论:使用网络上受版权保护的作品训练 AI 模型是否构成合理使用。(任何使用过 Midjourney 的人都知道它是用受版权保护的作品训练的;它有时甚至会在输出结果中生成水印和艺术家签名。)
最近,该公司宣布计划在未来推出硬件产品,但具体形式仍不明确。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。