根据《纽约时报》的报道,在经历了内部动荡后,Apple 的首轮 Siri 改进计划有望在今年秋季推出,以增强这个备受关注但表现不佳的数字助手,它本应成为 Apple Intelligence 的核心组成部分。
在一篇探讨 Apple 面临挑战的文章中,作者 Tripp Mickle 提到了一个细节:"据三位知情人士透露,该公司计划在秋季发布一款虚拟助手,能够执行诸如编辑照片并根据要求发送给朋友等任务。"
这个描述与 WWDC 24 和 iPhone 16 系列发布会上展示的互联智能助手相去甚远。当时承诺的 Siri 能够从短信和邮件中获取家人航班抵达等上下文信息。事实上,目前 Siri 的功能似乎正在倒退。
Apple 罕见地打破了一贯的保密作风。今年三月,发言人 Jacqueline Roy 在对 Daring Fireball 的声明中承认,作为 Apple Intelligence 一部分的智能 Siri 助手开发"需要比预期更长的时间",公司"预计将在未来一年内推出这些功能"。而现在《纽约时报》的报道表明,我们最早可能在秋季就能看到这些改进。
基本查询不应该困难 最近,Siri 和 Apple Intelligence 遭到多方批评。在幕后,Apple 调整了高管团队,将 John Giannandrea 从 Siri 负责人的职位上调离,这一过渡在《纽约时报》和《The Information》的报道中都有详细描述。
但 Siri 似乎也缺乏对基本查询的理解能力。Apple 修复了之前的一个问题,当你问 Siri "现在是几月?"时,它会简单回答"抱歉,我不明白"。现在,当我问这个问题时,得到的不是月份,而是完整的日期。当我换个方式问"现在是什么月份?"时,它会告诉我"现在是 2025 年 4 月 1 日星期二"。
解析这样一个基本问题似乎并不困难。也许这个问题从未被重视,因为它看起来只有从昏迷中醒来或从荒岛获救的人才会问。
这一切让股东、记者和消费者感到失望,特别是当他们对 Apple 的助手功能抱有很高期待时。公司的保密态度导致了持续数月的"Apple 在 AI 领域落后"的批评声浪。
通过采取不寻常的回应方式,公司可能让情况变得更糟,因为这证实了分析师、记者和粉丝们的担忧是对的。
明智的做法是 Apple 坚持其保密传统,在功能接近发布时才展示。本周的消息泄露表明公司可能已经意识到了这一点。
Apple 过高的期望 Apple 的产品开发方式一向是秘密进行,需要时甚至会持续数年,直到产品完全就绪。虽然产品发布时可能不是百分之百完善,但核心功能都已具备。
Vision Pro 就是一个很好的例子。尽管有人认为它并不成功 —— 价格昂贵、未被广泛采用、佩戴不舒适等,但处理能力、micro-OLED 屏幕和 VisionOS 等基本要素都已具备。
当产品信息提前泄露时,Apple 通常会推出一个完整版本,即使功能有限。2007 年 Macworld Expo 前,普遍预期 Apple 会发布手机,特别是在 Motorola ROKR E1 手机遭遇尴尬之后。但没人预料到它会打破当时智能手机的常规,推出大屏幕、无物理键盘和全功能网页浏览器的设计。
这次的不同之处在于,Apple 对高级 Siri 的承诺似乎是对投资者、媒体和早期用户对 AI 即时性追求的回应。Apple 需要展示自己在 AI 领域的竞争力。
同时,年度 iPhone 更新也即将到来。Apple 和其他手机制造商一样,将 AI 视为推动新手机销售的重要因素,因为只有 iPhone 15 Pro 和 iPhone 16 系列机型具备运行 Apple Intelligence 的处理能力。
大语言模型的不同发展模式 像 ChatGPT 这样的大语言模型正在以惊人的速度发展。它们现在更具对话自然性,能很好地总结大量信息。实时音频转录对我这样一直难以手写笔记的人来说是一项革命性的功能。
同时,这些 AI 技术并未达到 Google 和 OpenAI 等公司的预期。Apple 并不是唯一一个将 AI 未来寄托于全知智能助手的公司。
也许 Apple 像 Google 一样,看到了大语言模型能力的快速进步,认为目前面临的困难可以通过简单的错误修复和 AI 模型重新编译来解决。
但事实并非如此。AI 的幻觉和错误数据仍然是个问题。我怀疑 Apple 不仅因为不得不推迟 Siri 计划而感到痛苦,更因为不得不公开这一决定而感到困扰。即使未来版本的 Siri 近期不会出现,仍有很多机会继续改进 Apple Intelligence。iOS 19 和 iPhone 17 的开发工作以及 WWDC 2025 的准备工作无疑正在进行中。现在对这位资深助手的期望降低了,也许 Siri 的表现会从此开始改善。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。