Krisp Technologies Inc.是一家专注于降噪、转录和会议摘要软件开发的公司,今日推出了一项实时语音技术,能够在实时对话中提高对带口音英语的理解能力。
这家位于加州伯克利的公司开发的"听者端口音转换"系统能够为个人听者调整接收到的语音,而不会改变说话者对其他人的声音表现。这与传统的口音修改工具不同,传统工具会改变说话者的输出音频。
Krisp系统在本地运行,在听者设备上处理语音,并澄清在不同口音中经常被误听的音素,同时保持说话者的自然音调和声音特征。只有听者能听到调整后的语音版本,用户可以随时启用或禁用该功能。
该公司围绕实时音频增强技术构建业务,包括降噪和语音AI工具。去年,公司推出了输出端口音转换功能,可以修改说话者对所有听者的声音表现。这次发布的新功能则反转了模式,将修改限制在个人听者端。
生产力影响
口音差异可能降低AI智能体的语音识别性能,增加人际对话中的摩擦,并提高错误风险。该公司表示:"随着语音成为工作和客户互动的主要界面,理解能力正在成为系统级要求,而不仅仅是个人挑战。"
该技术在音素级别处理传入音频,在本地运行,延迟不到200毫秒,公司称这种延迟对人耳来说是无法察觉的。它不需要转录或后处理,不存储原始音频。所有处理都在本地设备上完成,无需云端依赖。
Krisp断言口音差异对生产力有可衡量的影响。会议参与者可能需要重复自己的话,减慢对话速度或错过语境。在呼叫中心,处理多样化口音的工作人员可能经历更长的处理时间和更高的认知负荷。在人工智能系统中,识别准确性和自动化性能可能下降。
2022年的一项研究发现,工作场所的沟通不良导致每位员工每周损失超过7小时的生产力时间。
Krisp联合创始人兼总裁Arto Minasyan是亚美尼亚人,他表示亲身体验过这些影响。"我知道在通话中重复自己话语的感受,或者看到有人专注于你的发音而不是你的想法,"他在书面评论中说。"随着时间推移,这会改变人们自由说话的方式。"
该功能已通过Krisp的会议语音AI应用程序在苹果电脑和Windows PC上正式提供人际会议服务。与公司呼叫中心AI平台的集成正在进行中,该功能还将通过软件开发工具包公开,使开发者能够直接将其嵌入应用程序和语音AI智能体中。
口音修改技术曾受到批评,有人认为这些技术可能会给说话者施压要求其符合标准或抹杀身份认同。Krisp表示通过保持说话者声音不变来避免这种担忧。
该公司表示,系统不会"评分、排名或评判说话者",也不会强制执行单一的语言标准。调整仅在听者设备上进行,以减少听力负担和误听风险。
模型在多样化英语口音上进行训练,在印度、菲律宾、拉丁美洲、非洲和中文普通话口音方面报告了最强的效果。覆盖范围持续扩大。
成立于2017年的Krisp表示,其软件已部署在超过2亿台设备上,每月处理超过800亿分钟的语音对话。
Q&A
Q1:Krisp的听者端口音转换技术是如何工作的?
A:Krisp的听者端口音转换系统在本地处理语音,在音素级别调整接收到的音频,澄清不同口音中经常被误听的音素,同时保持说话者的自然音调。只有听者能听到调整后的语音,延迟不到200毫秒,对人耳来说无法察觉。
Q2:这项技术与传统口音修改工具有什么不同?
A:传统口音修改工具会改变说话者对所有听者的输出音频,而Krisp的技术仅在听者端进行调整,说话者的声音对其他人保持不变。这避免了对说话者施压要求其改变口音或抹杀身份认同的问题。
Q3:口音差异对工作场所有什么影响?
A:口音差异会降低AI智能体的语音识别性能,增加人际对话摩擦,导致会议参与者需要重复话语或减慢对话速度。在呼叫中心,工作人员处理多样化口音时会经历更长处理时间和更高认知负荷。研究显示工作场所沟通不良每周会让员工损失超过7小时生产力。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。