Roblox 正在推出并开源其首个基础 AI 模型 Cube 3D,该模型可用于生成 3D 对象。
"通过 Cube,我们旨在让 3D 创作更加高效,"Roblox 在新闻稿中表示。"借助 3D 网格生成功能,开发者可以快速探索新的创意方向,并通过快速决定要推进的方向来提高工作效率。"
正如 Roblox 在新闻稿中解释的那样,该模型是通过 3D 对象训练而成:
为了实现这一目标,我们从经过文本 token (或字符集) 训练的最先进模型中获得灵感,这些模型能够预测下一个 token 以形成完整句子。我们的创新建立在相同的核心理念之上。我们构建了将 3D 对象标记化并理解形状 token 的能力,并训练 Cube 3D 来预测下一个形状 token,以构建完整的 3D 对象。
图片来源:Roblox
发言人 Samantha Spielman 告诉 The Verge,用于训练该模型的实际数据包括"授权数据集和公开可用数据集的组合,以及来自 Roblox 生态系统的经验数据"。
未来,Cube 3D 还将能够使用图像作为输入来生成对象。据 Roblox 表示:"它最终将成为一个多模态模型,可以通过文本、图像、视频和其他类型的输入进行训练,并将与我们现有的 AI 创作工具集成。"
好文章,需要你的鼓励
OpenAI发布了音视频生成模型Sora 2,同时推出配套社交应用Sora,用户可生成包含自己的视频并在类似TikTok的信息流中分享。Sora 2在物理定律遵循方面有显著改进,视频更加真实。应用提供"客串"功能,允许用户将自己植入生成场景中,并可与朋友分享形象使用权限。该iOS应用目前在美加地区采用邀请制,ChatGPT Pro用户可直接体验。
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
大语言模型和生成式AI自诞生以来问题频发,从推理模型表现不佳到AI幻觉现象,再到版权诉讼,这些都表明当前技术路径可能并非通往真正智能的正确道路。专家认为,仅靠增加数据和算力的扩展模式已显现边际效应递减,无法实现通用人工智能。研究者提出智能应包含统计、结构、推理和目标四个层次的协调,并强调时间因果性的重要性。面对LLM技术局限,业界开始探索神经符号AI等替代方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。