尽管 Humane AI Pin 已经陷入困境,但 Rabbit 仍在继续前进。该公司今天发布了一篇博文和视频,展示了一个"通用 Android 代理",它能够缓慢地控制平板电脑上的应用程序,这与一年多前 Rabbit 声称其 R1 设备所具备的功能类似 (实际上当时做不到,现在也做不到)。这项工作是在 Rabbit 去年推出的"通用网页代理" LAM Playground 的基础上发展而来。
在演示过程中,工程师们完全没有使用 Rabbit R1 设备。相反,他们在笔记本电脑上的提示框中输入请求,系统会将这些请求转换为 Android 平板电脑上的操作。他们让系统执行各种任务,比如查找 YouTube 视频,或在鸡尾酒应用中找到威士忌鸡尾酒的配方,收集所需原料,然后将它们添加到 Google Keep 购物清单中。在某个环节,他们要求系统下载益智游戏 2048 并学会如何玩,虽然动作缓慢,但系统确实做到了。
这个模型基本上能够完成他们要求的任务,有时表现出色,有时则会出现一些怪异行为,比如通过 WhatsApp 发送诗歌时,是一条消息一行而不是整体发送。其中一位工程师猜测他们或许应该在提示中要求使用换行符,但他们没有重新尝试。
Rabbit 的 AI 代理显然仍在开发中,自从 2024 年 1 月创始人兼 CEO Jesse Lyu 展示的功能几乎都未能在 R1 发布时实现。Rabbit 一直在稳步推出更新,比如训练其 AI 代理完成特定任务或重新设计界面的能力。根据 Rabbit 的博文,今天展示的例子"仅仅是 Android 代理完成的核心动作循环"。公司承诺在未来几周内会分享更多关于其"即将推出的跨平台多代理系统"的信息。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。