Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Tavus Inc.是一家人工智能研究初创公司，专注于开发能够模拟与他人对话体验的实时AI技术。今天，该公司宣布推出一系列突破性的AI模型，旨在构建人机互动的操作系统，通过“对话视频界面”使AI能够自然地感知、理解和回应。Tavus的使命是让AI理解面部表情、语调和肢体语言，并能够用自己的表情和语调做出反应。

Tavus Inc.，一家致力于开发能模拟真人对话体验的实时 AI 技术的人工智能研究初创公司，今天宣布发布了一系列突破性的 AI 模型。

该公司表示，正在通过其"对话视频界面"构建一个人机交互操作系统，使 AI 能够自然地感知、理解和回应。这种体验就像在 Zoom 或 FaceTime 通话中与真人交谈一样。Tavus 的使命是让 AI 不仅能理解面部表情、语气和肢体语言及其含义，还能通过自身的表情和语气来传达意义。

"人类在进化过程中形成了面对面交流的方式。因此，我们希望教会机器如何实现这一点，"首席执行官 Hassaan Raza 在接受 SiliconANGLE 采访时表示。"如果我们相信未来会出现 AI 同事、朋友和助手，我们就需要为此构建相应的接口。"

此次发布包含三个模型：Phoenix-3，首个能传达细微表情的全脸 AI 渲染模型；Raven-0，一个突破性的 AI 感知模型，能像人类一样观察和推理；以及 Sparrow-0，一个先进的对话轮替模型，为对话增添"生命火花"。

Phoenix-3 是公司的旗舰基础模型，旨在创建"数字分身"——个人的高度真实再现，并具备 AI 驱动的人类表情能力。现在的第三代版本提供全脸动画，能够克隆人物并准确表现脸部每块肌肉，这对模仿细微表情至关重要。Raza 表示，大多数商用面部动画模型无法处理完整的面部，导致上下半部分不匹配，破坏了沉浸感。

"Phoenix-3 是一个全脸表情模型，具有情感控制功能，是首个无需大量数据就能实现这一功能的模型，"Raza 说。

最重要的是，Phoenix-3 的高保真度和面部肌肉控制意味着它能准确模拟"微表情"——那些短暂、不由自主的面部表情，它们是情感反应的结果。通过添加这一功能，该模型创造了一个生动的视频模型体验，比简单的动画面孔更加真实，更具情感和表现力。

为了使 Phoenix-3 能像人类一样做出响应，Raven-0 赋予了 AI 观察和理解场景的能力。它不是拍摄单独的快照，而是持续观察和理解视频中事件的上下文，包括识别用户的面部情绪和检测环境变化。

例如，AI 辅导员可以通过监控学生的表情来识别他们是否感到困惑或沮丧，并相应地调整解释方式。同样，支持助手可以观察客户使用产品的过程，并就如何解决问题提供指导。

Raza 表示，Sparrow-0 试图解决许多 AI 都会犯的错误。自然对话有一种流动感，参与者之间有一种给予和接受的关系，一方等待另一方停止说话后再接话。

然而，AI 有时会过早插话——有时甚至会打断对方。这种突然性发生是因为 AI 模型的思考速度比人类快，而 AI 模型开发者非常努力地降低延迟，即 AI 模型响应所需的时间。但如果 AI 响应太快，就会显得不自然。

Sparrow 模型通过理解语言节奏来让对话感觉自然，知道何时暂停、何时说话和何时倾听。它不会对"呃"这样的填充词做出反应，也不会等待长时间的沉默，而是根据语气、节奏和上下文进行调整。

"如果它确定你正在进行快节奏的友好对话，它会快速回应，"Raza 解释道。"但如果你说'让我想想'，AI 会给你空间。这样就使对话更自然。"

与其他将技术拼凑在一起的公司不同，Raza 表示，Tavus 开发了一个集成系统来整合这些模型。结果是一种高度沉浸式的体验，更像是在与真人交谈，比其他人形化 AI 系统更自然。

Raza 表示，模型功能还有提升空间，这意味着需要持续改进 AI 感知和理解人类的能力。

"现在还不是完美的，但它是同类最佳，"Raza 补充道。"然而，我们未来的目标是开发出一个如此深入理解人类的模型，除非你特意询问，否则你不会知道它是一个模型。"

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

来源：SiliconANGLE

2025

03/07

16:24

分享

点赞

RGB-Mini LED显示器与智能投影领衔，海信&Vidda六大3C潮品重磅发布

中国移动与火山引擎推出机密模型服务，为企业提供安全可信AI服务

双员值守，智护电网：国网浙江电力以“酷德+洛格”打造信息系统主动式运维体系

FFmpeg维护者JB Kempf：20人团队撑起全球互联网视频骨架，240000行汇编全靠手写，拒绝数千万美元

Antigravity A1无人机重大升级：AI剪辑与语音控制全面上线

北京车展 | 800V与SiC加速“上车”，隔离驱动芯片打响“本土高端突围战”

SkyfireAI获1100万美元融资，推动无人机自主协同作战

Ride1Up发布全球首款搭载半固态电池电动自行车

丰田与Hyroad携手推进南加州氢能重卡规模化部署

苹果探索与英特尔合作制造芯片，英特尔股价单日暴涨13%

9to5Mac每日播客：iOS 26.5 RC版本及苹果芯片合作伙伴最新动态

Threads网页版私信功能正式上线，但有几点需注意

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: