应用程序的未来是语音交互

语音交互正在成为应用开发的必然趋势。这不仅源于技术可及性的需要,帮助所有用户更便捷地使用设备,也因为底层语音技术正在快速成熟。虽然图形界面不会消失,但开发者和操作系统将越来越倾向于语音交互。从Wispr和Speechify等工具的普及,到OpenClaw等自主代理的突破,都表明语音将成为用户与技术交互的最短路径,让复杂操作变得更加直观自然。

然而,我即将提出的观点并不意味着您将被迫与设备进行语音交互,也不意味着人类正在盲目地走向一个充满过度依赖、喜爱AI的技术宅用户公共空间的未来。

图形用户界面不会消失,就像计算器在 Lotus 1-2-3 发布后没有消失一样。事实上,即使在今天,如果您愿意,仍然可以购买算盘,而且有些算盘价格确实很贵。

但现在看来,应用程序开发者和操作系统越来越倾向于语音交互已经是不可避免的趋势了。

这样做有充分的理由,最明显的就是可访问性。

我不仅指那些无法与设备进行物理交互的用户,尽管仅这一点就已经非常出色。我还指那些技术水平可能不如您的用户,但他们有同样的需求,他们试图导航那些似乎只对其他人轻松工作的手机、计算机和平台。

如果您的本能反应是将这些用户视为懒惰或类似的想法,我很抱歉地告诉您,您错过了现代计算整个承诺的要点。

技术进步应该降低准入门槛,帮助人们到达他们想去的地方,无论他们对从终端到Safari的任何东西有多熟悉。

事实上,苹果公司的存在大部分都基于这一前提,即使其领导层偶尔似乎忘记了这一点。

话虽如此,语音优先方法不可避免的另一个重要原因是:实现这一目标所需的实际底层技术终于变得足够好了。

是的,每个大语言模型仍然会犯愚蠢的错误,而且只要它们基于当前的自回归Transformer方法,它们很可能总是会犯错误。

但公司、前沿AI实验室,甚至独立开发者要么正在学习如何解决这些限制,要么转向完全不同的架构,其中一些架构显示出巨大的潜力。

在过去的一年中,语音界面取得了重大进展,包括Wispr和Speechify等工具,这些工具的采用率呈现出日益陡峭的增长趋势。

据Wispr Flow创始人兼首席执行官Tanay Kothari称,他的用户最终会达到语音占产品所有输入约75%的程度。在成熟用户中,键盘使用率降至5%以下。

如果他们没有在开发适当的智能体能力来配合他们的听写工具,我就把我的帽子吃掉。事实上,Speechify已经明显朝着这个方向发展。

另外,我们不要忘记最近由OpenClaw引起的海啸,尽管存在缺陷,它完全颠覆了任何人对自主智能体能够在短期内实现的期望。事实上,许多用户依赖ElevenLabs等平台与他们的智能体进行大声交谈,其中一些看到ElevenLabs API被OpenClaw主动实现。

任何了解情况的人都会告诉您这是多么了不起,尽管仍然存在缺陷。

这就是事情发展的速度:我开始写这篇文章是在一段时间之前,在OpenClaw成为今天的样子之前。

原本我写道:

事实证明,真的不是这样。

最初,我还打算通过提及Anthropic的MCP以及Apple的App Intents等内容来结束这篇文章,以说明实现语音就绪界面的各个部分是如何落实到位的。我甚至打算建议我们可能会在明年6月的WWDC期间看到相关消息。

现在,虽然我仍然相信我们可能会在6月份看到更多面向语音的功能、API和便利设施,但即使是它们将依赖于开发者的概念也开始显得短视或过时。

我可能记错了细节,但我相信是John Gruber谈论过在某个地方,可能是德雷塞尔大学,他们最终铺设了人们在草地上走出的小径,因为它比建筑师设计的路线更短。

我真诚地相信,对许多用户来说,语音就是那条最短的路径。

从向iPhone或Mac说出请求并获得高级快捷方式的回报,到调整照片、查找和编辑文档,甚至请求跨应用程序的多步骤工作流程,随着技术终于追上,越来越明显的是,大多数用户会发现最容易导航的界面根本就没有界面。或者说,是人类自第一声呼噜以来一直在完善的界面。

尽管如此,当人们给我发语音消息时,我仍然讨厌它。

Q&A

Q1:语音界面为什么会成为应用程序发展的必然趋势?

A:语音界面成为趋势主要有两个原因:首先是可访问性,它能帮助那些无法物理交互或技术水平较低的用户更容易使用设备;其次是底层技术已经足够成熟,大语言模型和相关AI技术的进步使得语音交互变得更加实用和可靠。

Q2:Wispr Flow的用户语音使用情况如何?

A:据Wispr Flow创始人兼首席执行官Tanay Kothari介绍,用户最终会达到语音占产品所有输入约75%的使用比例。在成熟用户群体中,键盘使用率甚至降至5%以下,这显示了语音交互的强大吸引力和实用性。

Q3:语音界面的发展会完全取代图形用户界面吗?

A:不会完全取代。就像计算器在Lotus 1-2-3发布后没有消失一样,图形用户界面也不会消失。语音交互更像是提供了一条最短路径,让用户能够更容易地完成任务,但传统的界面仍然有其存在价值和使用场景。

来源:9to5mac

0赞

好文章,需要你的鼓励

2026

02/05

13:57

分享

点赞

邮件订阅