尽管 Humane AI Pin 已经陷入困境,但 Rabbit 仍在继续前进。该公司今天发布了一篇博文和视频,展示了一个"通用 Android 代理",它能够缓慢地控制平板电脑上的应用程序,这与一年多前 Rabbit 声称其 R1 设备所具备的功能类似 (实际上当时做不到,现在也做不到)。这项工作是在 Rabbit 去年推出的"通用网页代理" LAM Playground 的基础上发展而来。
在演示过程中,工程师们完全没有使用 Rabbit R1 设备。相反,他们在笔记本电脑上的提示框中输入请求,系统会将这些请求转换为 Android 平板电脑上的操作。他们让系统执行各种任务,比如查找 YouTube 视频,或在鸡尾酒应用中找到威士忌鸡尾酒的配方,收集所需原料,然后将它们添加到 Google Keep 购物清单中。在某个环节,他们要求系统下载益智游戏 2048 并学会如何玩,虽然动作缓慢,但系统确实做到了。
这个模型基本上能够完成他们要求的任务,有时表现出色,有时则会出现一些怪异行为,比如通过 WhatsApp 发送诗歌时,是一条消息一行而不是整体发送。其中一位工程师猜测他们或许应该在提示中要求使用换行符,但他们没有重新尝试。
Rabbit 的 AI 代理显然仍在开发中,自从 2024 年 1 月创始人兼 CEO Jesse Lyu 展示的功能几乎都未能在 R1 发布时实现。Rabbit 一直在稳步推出更新,比如训练其 AI 代理完成特定任务或重新设计界面的能力。根据 Rabbit 的博文,今天展示的例子"仅仅是 Android 代理完成的核心动作循环"。公司承诺在未来几周内会分享更多关于其"即将推出的跨平台多代理系统"的信息。
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。