语音人工智能解决方案领先供应商Krisp Technologies Inc.今日宣布推出VIVA,这是一个专为语音智能体设计的新型语音隔离AI模型和软件开发工具包。
该公司还透露,VIVA目前每月在全球范围内处理超过10亿分钟的语音音频。
VIVA是"语音智能体语音隔离"的缩写,集成到应用程序的音频路径中。它增强了语音智能体检测语音活动的能力,改善了它们的对话轮换行为,有助于防止错误中断并创造更自然、有效的对话。
消费者对AI语音交互的期望越来越高。过去,与在线系统的对话是僵化和脚本化的,往往只是美化的录音。这些日子即将结束。如今,语音智能体可以进行真实对话,动态响应并适应上下文。
"行业术语称之为对话轮换,"联合创始人兼首席执行官Davit Baghdasaryan在接受SiliconANGLE独家采访时说。"当有背景噪音时,对话轮换就会变得非常混乱——特别是背景声音。AI会变得非常困惑。"
对话轮换指的是对话的来回流动,或者知道何时说话何时倾听。人类通过语言和非语言的调整,如语音、停顿、语调和肢体语言,自然地做到这一点。
在语音AI中,对话轮换指的是检测用户何时停止说话以及何时适合响应而不中断或留下长时间沉默。糟糕的对话轮换会导致尴尬或不自然的交互。
Krisp的VIVA模型在20毫秒内处理音频,显著提高了响应速度。它可以将对话轮换准确性提高3.5倍,从而减少50%的通话中断,并帮助提升客户满意度。
与依赖耗电图形处理器的模型不同,VIVA在中央处理器上高效运行,使其非常适合在广泛的设备上部署。这使其能够嵌入运行或与更大模型并行工作而不影响性能。
这对企业至关重要,因为它即使在嘈杂环境中也能提高转录准确性,并消除不相关的音频,如背景电视或无关对话,改善自动理解和整体用户体验。
人类交流依赖于微妙的音频和行为线索。虽然人们自然地处理这些线索,但语音智能体仍然难以应对。背景声音、笑声甚至停顿都可能导致AI响应中断或混乱。
"仅从音频就有五、六种不同的线索,"Baghdasaryan解释说。"如果我们想要有人类级别的对话AI,AI必须意识到这些线索。"
Krisp设计VIVA来识别和适应这些信号。例如,一个VIVA模型过滤掉笑声——在有儿童的环境中特别有用——这样机器人就不会误解这些声音为用户语音的一部分。
"笑声是一个很大的问题,"Baghdasaryan说。"我们有模型可以去除笑声,这样机器人就不会被它中断。"
VIVA已经集成到Decagon AI、Voxex.ai、Vapi Inc.、Ultravox.ai(前身为Fixie.ai)、LiveKit Inc.和一些世界最大AI实验室使用的智能体系统中,在那里它正在提供可衡量的改进。
"当我们的开发团队演示Krisp的能力时,我们被震撼了,"Vodex首席技术官Kumar Saurav说。"看到我们的机器人即使在嘈杂的办公室噪音中也能不间断地继续工作,对我们来说是一个游戏规则改变者。"
Baghdasaryan总结说,随着每月数十亿音频请求的里程碑,VIVA已准备好让开发者构建更响应迅速的智能体,并为更好的客户支持和虚拟伙伴提供基础。
好文章,需要你的鼓励
惠普企业与爱立信合作开设研究设施,验证双模5G核心服务,为电信运营商提供"无缝"下一代核心网络。联合验证实验室将解决多供应商基础设施部署中的关键挑战,进行互操作性测试。实验室位于瑞典爱立信总部附近,2025年底投入运营。该方案结合爱立信双模5G核心服务与惠普服务器、网络架构和红帽OpenShift平台,支持5G和4G网络,降低复杂性和运营成本。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
高通在骁龙峰会2025上发布新一代骁龙8 Elite Gen 5芯片,AI处理速度从15令牌/秒提升至220令牌/秒,为真正的AI代理性能奠定硬件基础。AI首席官马拉迪表示,个性化AI助手即将到来,能够利用设备本地文档和图片等数据提供智能服务。尽管生成式AI仍面临准确性挑战,但硬件已不再是障碍,关键在于制造商的集成应用。AI代理将改变人机交互方式,自动化繁琐任务,让用户更高效地使用设备功能。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。