数字营销公司Stone Temple通过一份包含4942个查询的详尽列表,测试了Alexa、Cortana、Google Assistant和Siri。对于每一项,受访者可以勾选该智能助理是否回答了问题、是否理解了问题、回答是否错误、答案是否来自数据库或第三方来源,如维基百科。
结果明确显示:微软Cortana比大多数人预想的要聪明得多。
Cortana在Google Home上的表现甚至超过Google,但令人惊讶的是,Google Assistant在移动端却表现的不是那么聪明。Cortana大幅超过Alexa,苹果的Siri甚至还差得远。
在移动端,Google Assistant几乎可以尝试回答80%的问题,在准确性和完整性方面的得分超过90%。Cortana尝试回答的问题相对少一些——约65%, 但成功率超过90%。
然而,Alexa却只命中了一半的问题。
Siri尝试回答超过40%的问题。
对于这些智能助理尝试回答的问题中,Alexa和Siri表现不错,准确率达到了80%左右。但显然,这是从一个较小的知识库中进行操作的。而作为两大领导者,谷歌和微软在过去十年中运行着庞大搜索引擎绝非偶然。
过去几年,有数十亿人在提出问题,这一点并不令人感到惊讶,他们通过点击来选择哪些答案是最佳答案,这让微软和谷歌变得更加聪明。
对亚马逊来说,另一个亮点是:Alexa正在快速增长。
在去年Stone Temple进行的研究中,Alexa仅仅尝试回答了20%的问题。今年,Alexa尝试回答的问题超过一半,有进步了。
苹果Siri也变得越来越聪明,但速度并不快。去年的测试中,Siri尝试回答31.4%的问题,今年提高到了40.7%。
对于企业来说,人工智能是一个越来越重要的竞争优势,尤其是那些正在打造语音优先的个人助理的大型科技公司。苹果正在这方面努力进行改善,并且最近挖来了谷歌搜索和人工智能的负责人。
好消息是:人工智能助理通常不会提出误导性的询问(不过最近在被问及飞机化学痕迹时,Alexa曾一度抛出了政府阴谋论)。
该报告作者说:“我们没有看到任何从根本上误导客用户的错误答案。”
他向人工智能助理提出的问题包括:
一些人工智能助理有不错的幽默感。
有一个领域苹果Siri表现出了明显的优势:幽默感。在所有智能助理中,显然Siri最有幽默感,但现在她也变得越来越严肃了:去年,Siri给出搞笑回答的数量几乎是其他智能助理的两倍。
今年是Alexa的领跑。
微软面临的挑战显而易见。微软已经打造了一个非常有竞争力的人工智能助理......但它并没有涉足移动端或者智能音箱市场,通过这个渠道微软可以将Cortana推向市场。
因此,Cortana主要集中在Windows桌面端,而且目前还不清楚人们是否会在他们的桌面上深度使用语音。当然,Cortana不仅仅是通过语音访问的。
但是,微软仍然需要有一些方法,来有效地将他们强大的智能助理推向市场。
这也许意味着要与苹果结成伙伴……
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
初创公司Positron获得5160万美元A轮融资,推出专门针对AI推理的Atlas芯片。该公司声称其芯片在性能功耗比和成本效益方面比英伟达H100高出2-5倍,并已获得Cloudflare等企业客户采用。Positron专注于内存优化设计,无需液体冷却,可直接部署在现有数据中心。公司计划2026年推出支持16万亿参数模型的下一代Titan平台。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。