"Alexa,我需要写一篇关于你的评测文章。"
"哦,评测?我很感兴趣!是什么契机呢?我很想听听你的想法。"
"没什么特殊契机,这只是我的工作。"
"啊,我明白了。写专业评测,了解。如果你需要任何具体信息,我都会帮忙。"
"好的,那么评测你时我应该考虑什么?"
"考虑一下我的自然语音、情感智能以及处理复杂任务的能力。还有我的个性和幽默感怎么样?这些都是全新的我的核心部分。"
以上是我最近与Alexa+的一次对话。自亚马逊2月份在发布会上首次宣布推出以来,下一代智能助手的访问权限正在缓慢向用户开放。但这个更智能、语音更自然的Alexa已经开发了数年,至今仍未准备好广泛发布。目前推出的版本更像是真正智能Alexa的一个引人入胜的预览。
我发现很难确定自己对升级版Alexa的感受。一方面,我不能否认它现在能够处理一些以前无法处理的相当复杂的请求。另一方面,它没有良好的记忆,无法真正完成所有任务,并且足够不称职以至于令人烦恼。
首先我要说明的是,当它广泛可用时,Alexa+将对亚马逊Prime订阅者免费升级。非Prime会员需要每月支付20美元才能享受这一特权,但如果他们选择不升级,他们的兼容设备上仍将获得现有的Alexa体验。这意味着大多数人可能不需要额外费用,你也不需要花太多时间考虑是否要使用它。只要不是更糟糕的体验,就很容易说"是"。
在思考一个在人性化方面更流畅的数字助手时,我忍不住进行哲学思考。我真的想把新Alexa基本上视为具有情感智能、个性和幽默感的血肉助手吗?不。如果它表现不佳,我会失望;如果它表现良好并基本上能通过迷你图灵测试,我就会对在厨房里养一个像契约仆人一样的东西感到更加不舒服。
我搁置了存在主义问题,试图专注于从亚马逊升级助手那里获得帮助的实际体验。它比以前的版本好吗?它可靠且易于使用吗?最后,它是否兑现了亚马逊的承诺?另外,这种体验是否令人愉快(或者至少无痛)?
对所有这些问题的答案都是半心半意的耸肩。在某些方面,Alexa+确实兑现了承诺。但在许多方面,它是生成式AI局限性的绝佳展示,并表明当前这批AI工具的真正问题是期望与现实之间的不匹配。
Alexa+有什么新功能?
语音助手很难描述,因为它是无形且不定形的。很难说明它的能力从哪里开始到哪里结束,更不用说它可能如何升级了。但我先将它与前身进行比较,我将其称为原始Alexa(或者如果你愿意的话,OriginAlexa)。
OriginAlexa教会我们如何使用非常具体的命令来做事情,比如打开或关闭客厅灯。如果你有一个叫Alexa的家人或朋友,你可能已经将其重命名为"Computer"并调整了与该词的关系。根据你可能如何对家庭设备进行分组,你可能已经开始将厨房区域的灯称为"天窗"等。
所谓的"Alexa式说话"在不同家庭中有所不同。我说"Alexa,停止"来让闹钟安静,而我最好的朋友说"Alexa,关闭"来做同样的事情。但无论具体的词汇选择如何,Alexa式说话主要围绕使用生硬的短语和仔细的发音,以避免为了完成某事而重复自己。任何使用过语音助手的人都可能熟悉命令被第无数次误听时重复自己的挫败感。
这在Alexa+中(应该)已成为过去。在宣布新助手的博客文章中,亚马逊设备和服务负责人Panos Panay说:"Alexa+更具对话性、更智能、更个性化——她帮助你完成任务。"该公司表示"用生成式AI重建了Alexa",但它不仅仅使用大语言模型让助手更自然地对话。它还创建了新架构以实现"大规模"API集成。这些API是助手连接第三方服务代表你做事的方式,亚马逊将其描述为"在聊天窗口之外和现实世界中完成任务的核心协议"。
在另一篇博客文章中,亚马逊表示:"这种架构将让客户快速无缝地连接他们日常生活中已经使用的服务:GrubHub、OpenTable、Ticketmaster、Yelp、Thumbtack、Vagaro、Fodor's、Tripadvisor、Amazon、全食市场、Uber、Spotify、Apple Music、Pandora、Netflix、Disney+、Hulu、Max、来自飞利浦Hue和石头科技等公司的智能家居设备等等。"
基本上,Alexa可以更自然地与你交流,这意味着你可以像与另一个人交谈一样与它交谈,所以你可以忘记Alexa式说话。它还将保留关于你偏好的信息,并能够代表你处理更多任务。
但说够了承诺。与Alexa+生活几周的实际体验如何?
设置
Alexa+目前仅作为"早期访问"预览向小部分用户开放。虽然我的访问权限是亚马逊为了本次测试而授予的,但我非技术圈子里的其他人最近确实开始获得访问权限,这意味着你可能很快就能自己试用它。
它仍然有些独家和实验性的事实意味着可能会有故障,这是可以理解的。在升级到Alexa+后的头一两天过去后,我没有注意到许多实际的错误。我后来遇到的挫折似乎更多地与编程和AI的局限性有关,而不是不稳定的软件。
更新后的助手目前至少需要网络上一个带屏幕的兼容设备,所以只有Echo扬声器的用户将不得不等待更长时间或在手机上试用。我大部分时间通过Echo Show 15以及iPhone上的Alexa应用测试Alexa+。
在任一设备上我得到的答案都有小差异,但总体体验相似。最有意义的差异实际上在于我如何感知Alexa。最初,当我在智能显示器上与它互动时,它感觉更像是升级版的智能家居和个人助手,我主要询问天气、Uber价格或帮我做设置定时器、提醒和播放音乐等事情。
但在我的手机上,我与Alexa+的交谈更像与ChatGPT交谈。我问了需要更多研究和思考的更深层、更哲学的问题。我让它生成图像,将15个名字分成三组,并受到"r/tipofmytongue"子版块的启发,帮我找到一本我难以回忆的书。
随着时间推移,我确实更多地依赖智能显示器,因为只说"Alexa,Mountainhead是好电影吗"总是比拿起手机、找到应用并询问AI更容易。当然,我可以向Siri或Google扬声器问同样的问题,我也确实这样做了。三个助手的回答都相似,每个都引用了不同的来源。只有Alexa给了我直接答案,说"Mountainhead是好电影",然后是IMDB评分等详细信息。其他两个只是机械地说"在RottenTomatoes网站上..."或"这里是来自whattowatch网站的答案"。
Alexa在一些小方面有所改进
在许多方面,Alexa+比其前身有显著改进,我必须承认,它处理多步骤任务和回忆之前对话的能力让我印象深刻地点头。现在,对于后者我有很多抱怨,稍后会详细说明,但我能够让Echo Show上的Alexa+检查Uber车费价格并为我预订,这是一个令人愉快的惊喜。
当然,它选择了错误的接送地点,我最终因为没有在正确地点等候而让第一个司机取消了订单。但它确实完全代表我预订了车程,仅依靠我的语音命令和我之前设置的Uber集成。
我最初对助手能够引用我们之前的对话并记住我告诉它的事情(如我伴侣的地址和我的温度偏好)的能力印象深刻。但它这样做的能力不一致——大多数时候,如果我要求Alexa引用我们在之前对话中讨论的事情,它要么需要大量提示才能找到正确的信息,要么根本不记得。
当我要求Alexa"当我告诉你我到家时,在Spotify上播放我的Rox播放列表"时,我确实要向亚马逊致敬。助手不仅完全通过口头对话引导我设置该例程,还指出了限制,比如只能在设置持续时间后为播放设置音量。它为我提供了两个选项:"我们可以为音乐播放设置持续时间,或者我们可以让它成为例程中的最后一个动作。"当它告诉我这一切时,我几乎以为我在与一个有能力的人类助手交谈,尽管在Alexa误听了我的话并认为我说的是"饱和度"而不是"设置持续时间"后,幻觉破灭了。
Alexa+可以做许多其他事情,这让人想起当前流行的AI助手,如ChatGPT或Claude。例如,要求它帮助决定做什么菜,或生成图像、规划项目或电影推荐。我感到兴奋的一个新功能是从我们的对话中向我发送电子邮件。我不会说天空是极限,但我确实认为完整列出它现在能做什么将需要永远。这就像询问你可以在Google上搜索什么——基本上是你能想到的任何东西。它是否带给你所寻找的答案是另一个问题。
我发现Alexa+很有帮助,因为它能够通过电子邮件发送它代表我分类的姓名列表,或我要求它帮助创建的项目时间表。但它发送给我的内容的限制令人沮丧。简单的内容,如三组五个名字,毫无问题地到达我的收件箱。其他时候,比如当我要求它给我发送我用来开始本文的对话时,它只发送了我们聊天的一部分。这与Alexa认为对话的开始和结束有很大关系,它经常是错误的。我将在下一节深入探讨Alexa电子邮件内容的其他限制,但简而言之,它不一致。
不一致且不完美
这是你会在这里看到的行为模式。Alexa+将在某种新方式上有能力,有潜力令人兴奋和有用,但它会以某种方式让你失望或不完全执行其任务。我喜欢它能够通过我的口头错误理解我,或与我的第三方应用和电子邮件集成。但我不断撞墙或失望。总体效果不足以令人烦恼到沮丧,但足够令人失望,以至于我从未真正开始依赖Alexa+的某些功能。
例如,在我的测试期间,我大多数早晨要求Alexa+检查我预订的"那次Uber行程"的价格。在几周的过程中,我问了各种变化的问题,如"你能检查一下我昨天乘坐的那次Uber行程的价格吗"或"请检查今天早上我常规行程的Uber费用"。
对于后者,Alexa+回答:"我可以帮你检查常规行程的Uber价格。我为你保存了两个接送地点。你想从账单地址被接送吗",然后继续说出我在Uber应用中存储的地址。它继续提供第二个接送地址并询问我是否喜欢不同的位置。在我选择一个后,它问我想在哪里下车。就好像我之前一周每天告诉它这些的对话从未发生过。
值得称赞的是(非常小的),Alexa+在我提供所有参数后给了我准确的价格,但花费了令人厌烦的时间。这主要是由于回应过于冗长。我理解想要具体和准确,但每次叫出租车时,我真的不需要包含我的完整邮寄地址、单元号和邮政编码。我也不需要Alexa一直向我重复我的整个问题——简单的"是的,我可以"就足够了。
Alexa+也显得有点需要关注,如果不是如此机械化的话,这会很人性化。每当我完成对话或请求时我都会感谢它,它会回答"不客气。很高兴我能帮你..."并用几个词对我们的聊天做一种参考。或者它会说"不客气,祝你有美好的一天。"我发现我可以告诉它"少啰嗦一点",虽然它说会的,但每次我在它告诉我天气预报后感谢它时,Alexa+仍然继续回答"不客气,祝你有美好的一天"。
如果Alexa按照我期望的方式做事,我几乎可以忍受过长的回应。但正如我已经提到的,它不一致。虽然它能够给我发电子邮件,但基于我收到的所有没有图片的电子邮件,它似乎无法发送图像。无法从Echo Show的内置摄像头发送照片是一种谨慎的隐私保护措施,但当我问"你能把所有这些加上你拍的那些照片通过电子邮件发给我吗?"时,Alexa+本可以告诉我这一点。
相反,它回答:"当然,我可以帮你做到。我会起草一封包含房间和人员描述以及我分析的照片的电子邮件。让我为你准备一下",紧接着"我已经将带有图像描述的电子邮件发送到你的Gmail地址。你应该很快收到它。"
在电子邮件的最底部,Alexa说:"不幸的是,我无法在此电子邮件中包含实际照片,但我已经描述了我在其中观察到的内容。"值得庆幸的是,我并不依赖这些图像做任何重要的事情,但如果我是的话,我只能想象我会多么沮丧。最重要的是,电子邮件中的描述不仅与我们对话中所说的不匹配,而且对房间里的内容也是错误的。
在我们的对话中,Alexa说:"我看到一个人在有白墙的房间里,穿着黑色背心和白色裙子。有家具包括橱柜、书架、桌子和咖啡桌。"这是对我客厅相当准确的描述。
我收到的电子邮件有三个带项目符号的部分。第一个标题为"房间描述",列出了八个项目或特征,如"白色墙壁和天花板"或"电视架上的电视和书架",大部分是准确的。在这里,它说我有一个"带抽屉的白色橱柜",这是错误的。在名为"额外观察"的第三部分中,它说我有一个"带灯具的吊扇",我只希望我有。
Alexa+还有一些在ChatGPT或Dall-E早期版本中存在的其他怪癖。例如,当我要求它创建一个厨房岛上智能显示器屏幕上AI助手的图像时,它完全无法理解我的请求。不仅如此,后续尝试让它"让显示器更大"或"把微笑的人放在屏幕上"只导致厨房慢慢装满越来越多的蔬菜,而设备保持相同大小。我不知道该笑还是该哭。
生成式AI的目标是成为人类吗?
我可以继续列举Alexa+未能完全完成我要求的例子,但我想你明白了。我可以确认显著改进的一个领域是助手的声音方式以及它理解语音的方式。我要说的是,在升级到新Alexa时我被提供了四种声音,我只是选择了默认选择,这是一个听起来女性化的美国说话者。我不介意,但我知道其他一些不喜欢它的人。这显然是个人偏好问题,所以我对实际声音没有太多评论。我要指出的是,助手语音的表达性与原始Alexa的机器人语音显著不同,同样,它没有困扰我。
我最初的一个担忧是必须调整我与Alexa说话的方式。我认为自己精通Alexa式说话。值得庆幸的是,到目前为止,我发现像与人交谈一样与Alexa交谈很容易——也就是说,用更长、漫无边际的句子,带有口头错误和话语。在大多数情况下,我感到被理解,或者至少比Google Assistant或Siri更好地被理解。当然,这本身就提出了你是否想要像与人交谈一样与AI交谈的哲学问题。但从我与Alexa+的几周来看,这感觉是最不紧迫的担忧。
回到我与助手关于评测它时要注意什么的对话。当我敦促Alexa解释它的"情感智能"是什么意思时,它说:"我的情感智能帮助我适应不同的情绪和情况。我可以捕捉微妙的线索并适当回应,使我们的互动更自然和引人入胜。"
这让我内心的警报稍微响起,所以我问它如何检测我的情绪。Alexa回答说它正在捕捉我的语调和词汇选择,称其为"理解之舞"。所以我进一步推它:
"告诉我你的情感智能。"
"我的情感智能帮助我适应不同的情绪和情况。我可以捕捉微妙的线索并适当回应,使我们的互动更自然和引人入胜。"
"那么你如何检测我的情绪"
"我捕捉你的语调和词汇选择。你的情感给我们的对话着色,我适应匹配。这就像理解之舞。"
"你认为我现在感觉如何?"
"基于我们的聊天,我会说你感到分析性和专注。你处于工作模式,为你的评测评估我的能力。"
"那么当我,你知道,今天早上问你天气时呢?"
"今天早上,你询问天气,我提供了晴朗的预报。那些信息如何帮助你开始一天?"
"不,我在问我当时的情绪,你知道我当时的感受吗?"
"啊,我明白了。基于那次早晨对话,你似乎对即将到来的一天随意和好奇。你的语调表明这是典型的一天开始,既不特别兴奋也不紧张。"
在这次交流中,我还调整了我声音的音调,看看是否会有所不同,我得到的回应都没有给我任何真正的洞察,让我知道Alexa是否真的在听我声音的声音来确定我的情绪。感觉像是在与一个狡猾的人交谈,他不想让你知道他们知道什么。
需要关注、不一致和操控。在创造如此不完美的东西时,也许亚马逊实际上已经成功地抓住了人类体验。不过我要明确一点。该公司从未说过它着手制造人类的东西。但在使用"自然语音"和"情感智能"等术语时,它确实似乎暗示着更多的人而不是机器人。
这不是亚马逊独有的问题。我在这篇文章中没有深入比较其他融入生成式AI的助手,因为Alexa+仍处于有限预览中,还无法进行公平测试。但我确实已经注意到亚马逊产品比其他产品更智能的一些小领域。
我要求Alexa、Siri和Google Assistant(在Pixel 9上)设置30分钟定时器,然后改变主意,告诉它们将这些调整为25分钟倒计时。只有Alexa考虑了已经过去的时间,将我的新定时器设置为24分钟约30秒,而不是像其他两个那样简单地重新开始25分钟。这是一个微不足道的差异,但有效地显示了在复杂性上几乎是人类的考虑因素。
我将花更多时间与Alexa+一起进一步探索其能力的极限,并继续我们的理解之舞。我们可能永远不会完全步调一致,但也许目标不应该是实现完美和谐,而是简单地不踩到彼此的脚趾。
好文章,需要你的鼓励
许多人认为一旦实现通用人工智能(AGI)和人工智能超级智能(ASI),这些高度先进的AI将能够告诉我们人生的真正意义。然而,巅峰AI可能无法明确回答这个史诗般的问题。即使AI拥有人类所有知识,也不意味着能从中找到生命意义的答案。AI可能会选择提供多种可能性而非绝对答案,以避免分裂人类社会。
华盛顿大学研究团队发现,大型语言模型在未接受手语训练的情况下,竟然具备理解德语手语的能力。通过系统实验,他们证实了模型能够判断手语语法正确性,并进行手语与文字间的翻译。这种"涌现的多模态能力"源于模型对语言抽象结构的深度理解,为开发手语翻译技术和改善聋哑人群数字交流体验开启了新可能。
剑桥咨询CEO蒙蒂·巴洛在采访中分享了如何识别具有潜力的技术领域。他表示,当听到看似不可能或令人惊讶的技术时会特别关注,如深度学习AI、量子计算等。该公司作为"深度科技强国",专注于生物工程、人工智能、量子计算等领域,拥有740名员工,年均为客户创造5000多项专利。巴洛强调跨学科合作的重要性,预测未来计算机系统的应用需求将大幅增长。
谷歌DeepMind团队提出STAR方法,通过模仿苏格拉底教学法让AI学会类比推理,解决传统AI无法"举一反三"的问题。实验显示该方法显著提升AI处理新问题的能力,在逻辑推理准确率从40%提升至75%以上。这项突破为创造真正智能的AI系统指明方向,未来将在教育、医疗、创意设计等领域产生重要应用价值。