目前生成式 AI 的主要焦点一直集中在用于生成文本、图像等的基于文本的界面上。下一波浪潮似乎是语音,而且发展迅速。在最新进展中,Google 今天宣布,从下周开始将其高清语音界面 Chirp 3 添加到其 Vertex AI 开发平台中。
上周,Google 悄然宣布 Chirp 3 将为 31 种语言推出 8 种新的语音。该平台的使用场景包括构建语音助手、制作有声读物、开发支持代理和视频配音。这一消息是在 Google DeepMind 伦敦办公室的一场活动中宣布的。
与此同时,其他公司也在语音 AI 领域迅速前进。上周,Sesame(该公司开发了病毒式传播的、听起来非常逼真的 "Maya" 和 "Miles" AI 应用)宣布推出其开发者模型,让开发者可以在其技术基础上构建自定义应用和服务。
值得注意的是,Chirp 3 将设置使用限制以防止滥用。Google Cloud 首席执行官 Thomas Kurian 在今天的新闻发布会上表示:"我们正在与安全团队一起解决这些问题。"
ElevenLabs 是主要初创公司之一,已筹集数亿美元资金用于扩展其 AI 语音服务。
这一消息意味着 Chirp 3 将与目前正在测试的新版本旗舰大语言模型 Gemini、图像生成模型 Imagen 以及昂贵的视频生成工具 Veo 2 进入同一阵营。
Google 推出的 Chirp 3 是否能像其他 AI 努力创造的"人类"声音一样"逼真"(特别是 Sesame 的成果)还有待商榷。但正如 DeepMind 首席执行官 Demis Hassabis 强调的,这仍然是一场马拉松,而不是短跑。
他说:"在近期......认为 [AI] 在未来几年内能解决所有问题的想法,我认为还为时过早。我们距离实现通用人工智能(AGI)还有几年的时间。这将在未来十年改变一些事物,所以是中长期的。这是一个有趣的时刻。"
Google 早在 2021 年就推出了 Vertex AI,作为开发者在云端构建机器学习服务的平台。当然,这是在 OpenAI 的 GPT 服务推出引发 AI、特别是生成式 AI 的兴趣爆发之前。
此后,该公司一直在深耕 Vertex AI,部分原因是要追赶 Microsoft 和 Amazon 等为开发者构建生成式 AI 工具的公司。除了在 Gemini 基础上构建生成式 AI 外,开发者还可以使用 Vertex AI 对数据进行分类、训练模型并为生产设置训练模型。值得关注的是,它是否会将其围墙花园扩展到 Google 自身创建的模型之外。
Google 多年来一直在开发 "Chirp" 语音服务,这个名称最早是用作其与 Amazon 的 Alexa 服务竞争的早期努力的代号。
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。