7月12日,小冰公司发布全新的超级自然语音技术。该技术首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度,并支持通用全域场景。同时,小冰公司还披露了A轮融资信息。本轮融资由高瓴领投,五源、Neumann、IDG、GGV纪源资本及上轮投资人北极光与网易公司跟投,小冰估值已超过独角兽规模。
小冰公司即原微软小冰团队,是全球承载交互量最大的完备人工智能框架之一,技术覆盖自然语言处理、计算机语音、计算机视觉及人工智能内容生成。为加速其发展,去年7月13日,微软宣布将小冰分拆为独立实体,并继续保持投资权益。分拆后的小冰公司,将促进全球前沿技术与本地化的产品融合,扩展在人工智能基础研究方面的领先优势。
此次发布的小冰超级自然语音技术,不仅将自然度提至新的高度,也是全球首个全域通用的同类技术。它突破单一场景限制,使人工智能交互主体能够在说话、交谈、歌唱等人类全场景中,进行高度拟人交互。目前,小冰框架中的数百个不同人工智能原型主体,已全部完成升级。公开技术示范视频显示,人工智能与真实人类的声音已很难区分。
好文章,需要你的鼓励
Jabra 推出 PanaCast 40 VBS:首款专为小会议室设计的 180° Android 智能音视频一体机
这是一项关于计算机视觉技术突破的研究,由多家知名院校联合完成。研究团队开发了LINO-UniPS系统,能让计算机像人眼一样从不同光照下的照片中准确识别物体真实的表面细节,解决了传统方法只能在特定光照条件下工作的局限性,为虚拟现实、文物保护、工业检测等领域带来重要应用前景。
字节跳动智能创作实验室发布革命性AI视频数据集Phantom-Data,解决视频生成中的"复制粘贴"问题。该数据集包含100万个跨场景身份一致配对,通过三阶段构建流程实现主体检测、多元化检索和身份验证,显著提升文本遵循能力和视频质量。
这篇文章介绍了北京人工智能研究院开发的OmniGen2模型,一个能够同时处理文字转图像、图像编辑和情境生成的全能AI系统。该模型采用双轨制架构,分别处理文本和图像任务,并具备独特的自我反思机制,能够自动检查和改进生成结果。研究团队还开发了专门的数据构建流程和OmniContext评测基准,展现了开源模型的强大潜力。