播客录制和编辑平台 Podcastle 正式加入 AI 驱动的文本转语音竞争行列,发布了名为 Asyncflow v1.0 的 AI 模型。该公司还将为开发者提供 API 接口,使他们能够直接在应用程序中集成这一文本转语音模型。
借助这个新模型,该公司现可提供超过 450 种 AI 语音来朗读文本内容。公司表示,他们在开发技术和模型时特别注重降低训练和推理成本,这使他们在竞争中占据优势。
随着这一举措,Podcastle 加入了包括 ElevenLabs、Speechify 和 WellSaid 在内的初创公司行列,这些公司都开发了将各类文本转换为 AI 朗读语音片段的技术和 AI 模型。这项技术的应用范围涵盖营销、广告、内容创作、教育和企业培训等领域。
Podcastle 创始人 Arto Yeritsyan 在接受 TechCrunch 采访时表示,公司一直希望开发文本转语音模型,但训练成本和数据需求都很高。
"从成立之初,我们就想打造一个强大的文本转语音模型。然而,开发成本非常高。得益于近期大语言模型的发展,我们在去年取得了突破性进展,找到了一种无需海量数据就能构建高质量语音模型的方法,"Yeritsyan 说。
去年获得的 1350 万美元 A 轮融资也助力了公司的这项努力。
Yeritsyan 表示,Podcastle 为 500 分钟的文本转语音转换收取约 40 美元,而 ElevenLabs 则收取 99 美元。
Podcastle 的语音克隆功能也得到了升级,训练过程更加快捷。
此前,训练过程需要朗读大约 70 个不同的句子。现在,只需要几秒钟的录音就能创建声音克隆。新流程还使用了去年发布的 Magic Dust AI 技术来提升音频录制质量。
在我们的测试中,通过新流程创建的语音听起来有些机械感,但确实模仿了我们的语调。公司表示,这个功能会随时间不断改进。此外,用户可以训练不同的声音样本来获得不同的效果。
Podcastle 表示,除了成本优势外,在一个重新设计的网站中集成音频、视频、播客和 AI 驱动的朗读工具,将使其在竞争中脱颖而出。Yeritsyan 说,虽然大多数用户使用 Podcastle 处理音频内容,但视频内容的使用量也在快速增长。
好文章,需要你的鼓励
英特尔第三季度财报超华尔街预期,净收入达41亿美元。公司通过裁员等成本削减措施及软银、英伟达和美国政府的大额投资实现复苏。第三季度资产负债表增加200亿美元,营收增长至137亿美元。尽管财务表现强劲,但代工业务的未来发展策略仍不明朗,该业务一直表现不佳且面临政府投资条件限制。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。