AI公司Midjourney发布了其首款视频模型。这一AI视频生成的初步尝试将允许用户为图像制作动画效果,无论是在Midjourney中创建的图像还是从其他来源上传的图像。初始生成结果为5秒钟的视频片段,用户可以选择延长4秒,最多可延长4次。目前视频生成功能仅在网页端可用,需要至少每月10美元的订阅才能使用。
Midjourney是AI生成静态图像领域的早期知名公司之一,尽管其他平台已在人工智能发展讨论中占据前沿地位。谷歌最新的I/O大会推出了多款AI视频生成工具,如文本转视频的Veo 3模型和为电影制作者设计的Flow工具。OpenAI去年发布的Sora也是文本转视频选项,而Adobe最新推出的Firefly视频模型可以根据文本或图像提示创建视频。
虽然在视频领域起步稍晚,但这并未阻止创意工作者对其提出指控,声称其模型训练存在违法行为。事实上,这一视频功能发布紧随一起针对该公司的诉讼。迪士尼和NBC环球上周以版权侵权为由起诉了Midjourney。与任何AI工具一样,滥用的可能性始终存在。不过Midjourney已礼貌地要求人们"请负责任地使用这些技术",相信不会出现问题。
好文章,需要你的鼓励
谷歌DeepMind发布AlphaEarth Foundations AI模型,能处理每日数TB卫星数据追踪地表变化。该模型如"虚拟卫星"般将全球陆地和沿海水域映射为数字表示,帮助科学家监测食品安全、森林砍伐、城市扩张等关键问题。模型整合光学卫星图像、雷达、激光测绘等数据源,以10×10米精度追踪变化,错误率比其他模型低24%。
阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开发出轻量级语音合成系统LLMVoX,仅用3000万参数就能让任何大语言模型获得流式语音输出能力。该系统实现475毫秒超低延迟,词错误率仅3.7%,支持多语言扩展,可与视觉语言模型集成,为AI语音交互提供了"即插即用"的革命性解决方案。
ChatGPT虽然是目前最受欢迎的AI聊天机器人,但它并非万能。文章指出11个不应该使用ChatGPT的场景:诊断健康问题、处理心理健康、紧急安全决策、个人财务税务规划、处理机密数据、违法行为、学术作弊、监控实时信息、赌博预测、起草法律文件以及创作艺术。AI可能产生错误信息、缺乏实时数据更新,在高风险场景下可能造成严重后果。用户应了解其局限性,在关键决策时寻求专业帮助。
清华大学团队开发出革命性人形机器人系统Being-0,具备类人思维能力。该系统采用创新的"三层大脑"架构:顶层基础模型负责理解指令和制定策略,中间层连接器模块负责将计划转化为具体动作,底层技能库负责执行各种操作。机器人能够理解自然语言,自主规划复杂任务如制作咖啡,并在动态环境中灵活调整策略,在长期任务中达到84.4%的成功率。