根据《纽约时报》的报道,在经历了内部动荡后,Apple 的首轮 Siri 改进计划有望在今年秋季推出,以增强这个备受关注但表现不佳的数字助手,它本应成为 Apple Intelligence 的核心组成部分。
在一篇探讨 Apple 面临挑战的文章中,作者 Tripp Mickle 提到了一个细节:"据三位知情人士透露,该公司计划在秋季发布一款虚拟助手,能够执行诸如编辑照片并根据要求发送给朋友等任务。"
这个描述与 WWDC 24 和 iPhone 16 系列发布会上展示的互联智能助手相去甚远。当时承诺的 Siri 能够从短信和邮件中获取家人航班抵达等上下文信息。事实上,目前 Siri 的功能似乎正在倒退。
Apple 罕见地打破了一贯的保密作风。今年三月,发言人 Jacqueline Roy 在对 Daring Fireball 的声明中承认,作为 Apple Intelligence 一部分的智能 Siri 助手开发"需要比预期更长的时间",公司"预计将在未来一年内推出这些功能"。而现在《纽约时报》的报道表明,我们最早可能在秋季就能看到这些改进。
基本查询不应该困难 最近,Siri 和 Apple Intelligence 遭到多方批评。在幕后,Apple 调整了高管团队,将 John Giannandrea 从 Siri 负责人的职位上调离,这一过渡在《纽约时报》和《The Information》的报道中都有详细描述。
但 Siri 似乎也缺乏对基本查询的理解能力。Apple 修复了之前的一个问题,当你问 Siri "现在是几月?"时,它会简单回答"抱歉,我不明白"。现在,当我问这个问题时,得到的不是月份,而是完整的日期。当我换个方式问"现在是什么月份?"时,它会告诉我"现在是 2025 年 4 月 1 日星期二"。
解析这样一个基本问题似乎并不困难。也许这个问题从未被重视,因为它看起来只有从昏迷中醒来或从荒岛获救的人才会问。
这一切让股东、记者和消费者感到失望,特别是当他们对 Apple 的助手功能抱有很高期待时。公司的保密态度导致了持续数月的"Apple 在 AI 领域落后"的批评声浪。
通过采取不寻常的回应方式,公司可能让情况变得更糟,因为这证实了分析师、记者和粉丝们的担忧是对的。
明智的做法是 Apple 坚持其保密传统,在功能接近发布时才展示。本周的消息泄露表明公司可能已经意识到了这一点。
Apple 过高的期望 Apple 的产品开发方式一向是秘密进行,需要时甚至会持续数年,直到产品完全就绪。虽然产品发布时可能不是百分之百完善,但核心功能都已具备。
Vision Pro 就是一个很好的例子。尽管有人认为它并不成功 —— 价格昂贵、未被广泛采用、佩戴不舒适等,但处理能力、micro-OLED 屏幕和 VisionOS 等基本要素都已具备。
当产品信息提前泄露时,Apple 通常会推出一个完整版本,即使功能有限。2007 年 Macworld Expo 前,普遍预期 Apple 会发布手机,特别是在 Motorola ROKR E1 手机遭遇尴尬之后。但没人预料到它会打破当时智能手机的常规,推出大屏幕、无物理键盘和全功能网页浏览器的设计。
这次的不同之处在于,Apple 对高级 Siri 的承诺似乎是对投资者、媒体和早期用户对 AI 即时性追求的回应。Apple 需要展示自己在 AI 领域的竞争力。
同时,年度 iPhone 更新也即将到来。Apple 和其他手机制造商一样,将 AI 视为推动新手机销售的重要因素,因为只有 iPhone 15 Pro 和 iPhone 16 系列机型具备运行 Apple Intelligence 的处理能力。
大语言模型的不同发展模式 像 ChatGPT 这样的大语言模型正在以惊人的速度发展。它们现在更具对话自然性,能很好地总结大量信息。实时音频转录对我这样一直难以手写笔记的人来说是一项革命性的功能。
同时,这些 AI 技术并未达到 Google 和 OpenAI 等公司的预期。Apple 并不是唯一一个将 AI 未来寄托于全知智能助手的公司。
也许 Apple 像 Google 一样,看到了大语言模型能力的快速进步,认为目前面临的困难可以通过简单的错误修复和 AI 模型重新编译来解决。
但事实并非如此。AI 的幻觉和错误数据仍然是个问题。我怀疑 Apple 不仅因为不得不推迟 Siri 计划而感到痛苦,更因为不得不公开这一决定而感到困扰。即使未来版本的 Siri 近期不会出现,仍有很多机会继续改进 Apple Intelligence。iOS 19 和 iPhone 17 的开发工作以及 WWDC 2025 的准备工作无疑正在进行中。现在对这位资深助手的期望降低了,也许 Siri 的表现会从此开始改善。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。