在最近的Chase Center活动中,Meta公司的CEO 马克·扎克伯格(Mark Zuckerberg)参与了由J.P. Morgan Payments呈现的Acquired LIVE活动,分享了他对人工智能的愿景以及他对开放与封闭AI生态系统的看法。
他首先介绍了Meta正在研发的AR眼镜,代号Orion。这款眼镜可以提供日常佩戴中的增强现实体验,并通过透明镜片将数字信息无缝叠加到用户视野中。扎克伯格强调了人工智能与AR结合的重要性,指出,AI将使AR眼镜能更好地理解和响应用户需求,提供个性化内容和服务。
此外,他提到了VR和AR技术的融合,认为这将使用户能够在虚拟世界和现实世界之间无缝切换,创造出全新的交互模式。元宇宙是一个由多个虚拟空间组成的网络,用户可以在里面进行社交、工作和娱乐,而VR和AR技术将是实现这一愿景的关键。
他还讨论了开发这些新技术时所面临的挑战,包括硬件的小型化、电池寿命的延长以及图像渲染技术的提升。扎克伯格也提到了开发者和创作者在构建元宇宙中的重要性,他们将能够利用Meta的平台和工具来创造新的体验和内容。
在开放生态系统方面,扎克伯格认为,开放的AI生态系统能够促进更多的创新和更广泛的合作。他强调,开放源代码的AI模型允许更多的开发者和研究人员访问,这样可以更快更有效地对技术进行改进,从而提高安全性和整体功能。他提倡开放的AI生态系统,以促进整个行业的创新,并防止AI开发的垄断。
他将开放生态系统定义为那些允许更多的合作伙伴关系和更多的开发者参与的系统。以微软为例,说明了开放生态系统如何通过与各种合作伙伴的合作而成功,而不是像苹果那样,管理其供应链的每个环节。他提到,开放生态系统允许更广泛的合作伙伴关系,而封闭生态系统则更侧重于紧密集成和控制,以创造独特的体验和锁定用户。
扎克伯格认为,由于社区的持续反馈、审查和发展,开源软件通常更安全、更可靠,并且运营成本更低。这对于AI领域的安全问题尤其重要,因为开源模型可以被广泛审查,有助于发现和修复潜在的安全问题。
开源软件往往成为行业标准,当公司标准化使用开源堆栈构建时,更容易将新创新集成到产品中。这种标准化有助于快速学习和改进,是开源生态系统的一个重要优势。
扎克伯格认为,未来不太可能由单一的方法主导。开放源代码模型和专有模型之间的质量差距在过去六个月中已经缩小,开放源代码模型在促进创新、民主化AI以及提高责任和安全性方面的潜力变得越来越清晰。
扎克伯格透露,Meta将拥有大量的英伟达 H100 GPU,Meta的AI研究团队FAIR将与构建跨Meta应用的生成式AI产品的团队合并,以便将AI突破更直接地带给用户。
好文章,需要你的鼓励
亚利桑那州立大学的研究团队开发了RefEdit,这是一种新型图像编辑AI系统,能够准确理解和处理指代表达(如"中间那个人"、"右边的猫")。通过创建RefEdit-Bench基准测试,研究者们证明现有模型在多物体场景中表现不佳。他们设计了一种创新的数据生成流程,仅用2万样本就训练出的RefEdit模型超越了使用数百万样本训练的大型模型。这一突破使AI图像编辑在复杂场景中更加精确和实用。
这项研究提出了Critique-GRPO,一种创新的在线强化学习框架,将自然语言批评与数字反馈相结合,克服了传统仅用数字反馈的三大局限:性能瓶颈、自我反思效果有限和顽固性失败。实验表明,该方法使大语言模型能够从错误中学习并改进,在八项数学和通用推理任务中,将Qwen2.5-7B和Qwen3-8B模型的平均通过率分别提高了约4.5%和5%,超越了包括那些引入专家示范的方法。研究还揭示,高熵探索和长回答并不总是最有效的学习方式,质量更重要。这一方法为大语言模型的自我提升能力开辟了新路径。
这篇研究介绍了"量化LLM评价者",一个创新框架,能使大型语言模型(LLM)在评估其他AI输出时更接近人类判断。由麻省理工和Adobe联合研发的这一方法,将评估过程分为两个阶段:先让LLM生成文本评价,再用轻量级机器学习模型将这些评价转化为更准确的数值评分。研究提出了四种评价者模型,适用于不同评估场景,实验表明它们不仅能显著提高评分准确性,还比传统微调方法更节省计算资源。这一框架特别适合人类反馈有限的场景,为AI评估领域开辟了高效且可解释的新路径。
这项研究由IDEA、华南理工大学和北京大学联合开发的Rex-Thinker系统,通过模仿人类的链式思考方式来解决物体指代问题。与传统直接输出边界框的方法不同,它采用规划-行动-总结的三步骤推理,使AI能像人类一样逐步分析图像中的候选物体,并在找不到匹配物体时拒绝作答。通过构建90,824样本的HumanRef-CoT数据集和两阶段训练方法,系统在精度、可解释性和泛化能力上均取得了显著进步。