AI 驱动的头像内容创作初创公司 Akool 宣布对 Akool Streaming Avatars 进行升级,实现头像与 AI 模型的连接。
Akool 增加了先进的视频生成技术,现在可以与大语言模型 (LLM) 无缝集成,帮助模型开发者创建动态、逼真的 2D 头像。
用户只需上传照片并提供语音录音,就能创建个性化头像,使其成为 LLM 的自然延伸。通过熟悉的面孔和声音,让用户与头像的互动更接近真实人类交流。
人际互动对消费者来说至关重要 - 82% 的美国消费者和 74% 的非美国消费者表示希望获得更多互动。目前已经推出的 Akool Streaming Avatars 显著缩小了 AI 模型与终端用户之间的差距,让 AI 更易接近、更具吸引力和人性化,使企业能够差异化其产品并推动用户采用。
最终,Akool Streaming Avatars 通过富有情感的实时互动,让传统的基于文本的 LLM 更具人性化。
Akool CEO Jiajun Lu 在声明中表示:"消费者认为静态头像枯燥、单调且效果不佳,但 Akool Streaming Avatars 具有动态性和表现力,创造了新的互动层次。从个人内容创作者到大型企业,我们的 Streaming Avatars 大大降低了视频制作成本,是任何希望通过 AI 以新颖高效方式接触全球受众和客户的理想选择。"
在给 GamesBeat 的信息中,Lu 表示他的灵感来自兴趣和市场需求的结合,但主要是出于创造数字人类的热情。
跨行业应用
Akool 头像定制。
这项先进创新使企业能够构建和交付先进的情境感知头像,提供实时响应,正在改变以下行业:
电子商务: 虚拟销售助手指导客户进行产品咨询和购买决策。Akool 的头像使客服响应时间减少 40%,同时用户满意度提高 30%。
教育: 开发互动性强的课程,配备逼真的虚拟教师提供实时反馈。
医疗保健: 头像通过访问患者数据并提供富有同理心的回应,以熟悉的面孔提供个性化医疗建议。
客户服务: LLM 驱动的头像以情感智能处理查询,缩短响应时间并提高满意度。
通过利用 Akool 的专业级视频生成技术,客户还可以更轻松地进行集成。即用型应用程序接口 (API) 和软件开发工具包 (SDK) 允许快速部署并将头像集成到现有移动和网络应用中。
Akool 还表示这些头像具有情感智能。Akool Streaming Avatars 自然地传达说话者的情感,增强实时互动的真实性并促进更深层次的受众互动。该公司表示,凭借市场上最低的延迟,终端用户可以获得自然和互动的体验。
它还支持具有手势能力的头像。通过呈现面部表情、肢体语言和手势等细节,Akool Streaming Avatars 能够创建高度逼真和富有表现力的角色。
探索 AI 头像的未来
该公司提供两种 AI 头像变体,包括流式头像。这种设计用于实时互动的 AI 头像可以动态响应输入,适用于实时客户支持等互动场景。
此外还有会说话的头像。这种工具根据文本输入或预录音频生成头像说话的视频,设计用于以动态和吸引人的方式传递预录或脚本信息。头像模仿人类的唇形同步和面部表情,适用于营销视频、在线学习内容、个性化消息和社交媒体内容。
公司成立于 2022 年,已实现近 4000 万美元的已开票年度经常性收入 (ARR),是生成式 AI 驱动技术的全球领导者,正在改变数字内容创作格局。Akool 表示,其解决方案已为卡塔尔航空、可口可乐和跨国科技公司等全球领先品牌节省了数百万生产成本,提升了参与度,加快了市场覆盖。
好文章,需要你的鼓励
Inception是一家位于帕洛阿尔托的新公司,由斯坦福大学计算机科学教授Stefano Ermon创立,声称开发了一种基于“扩散”技术的新型AI模型,称为扩散基础的大型语言模型(DLM)。目前备受关注的生成AI模型大致可分为两类:大型语言模型(LLMs)和扩散模型。Inception的模型结合了传统LLMs的功能,如代码生成和问答,但性能显著更快,计算成本更低。
亚马逊正在重塑其旗舰语音助手 Alexa,通过整合 AI 代理、模型混合和浏览器操作能力,打造更智能的 Alexa+。新版本不仅可以主动提供个性化信息,还能理解复杂指令并完成多步骤任务。亚马逊希望通过这种创新方式,让 Alexa 成为更强大、更智能的家庭语音助手。
亚马逊在周三分享了一个令人印象深刻的“代理”未来愿景——在这个未来中,改进后的 Alexa+ 将处理无数日常任务,从预订餐厅到寻找家电维修工。如果亚马逊能够实现这一目标,它可能会成为首个推出全面、以消费者为中心的代理工具的公司。该公司希望将更自然、更具表现力的 Alexa(由生成性 AI 模型驱动)与能够以完全自主、智能的方式接入第一方和第三方应用、服务及平台的能力结合起来。
微软推出了新一代高效 AI 模型 Phi-4,可同时处理文本、图像和语音,且计算资源需求大幅降低。其中 Phi-4-Multimodal 仅有 56 亿参数,Phi-4-Mini 仅有 38 亿参数,性能却超越同等规模竞品,甚至在某些任务上媲美两倍大小的模型。这一突破性进展为开发者提供了先进的 AI 能力,有望推动边缘计算和普及 AI 应用。