播客录制和编辑平台 Podcastle 正式加入 AI 驱动的文本转语音竞争行列,发布了名为 Asyncflow v1.0 的 AI 模型。该公司还将为开发者提供 API 接口,使他们能够直接在应用程序中集成这一文本转语音模型。
借助这个新模型,该公司现可提供超过 450 种 AI 语音来朗读文本内容。公司表示,他们在开发技术和模型时特别注重降低训练和推理成本,这使他们在竞争中占据优势。
随着这一举措,Podcastle 加入了包括 ElevenLabs、Speechify 和 WellSaid 在内的初创公司行列,这些公司都开发了将各类文本转换为 AI 朗读语音片段的技术和 AI 模型。这项技术的应用范围涵盖营销、广告、内容创作、教育和企业培训等领域。
Podcastle 创始人 Arto Yeritsyan 在接受 TechCrunch 采访时表示,公司一直希望开发文本转语音模型,但训练成本和数据需求都很高。
"从成立之初,我们就想打造一个强大的文本转语音模型。然而,开发成本非常高。得益于近期大语言模型的发展,我们在去年取得了突破性进展,找到了一种无需海量数据就能构建高质量语音模型的方法,"Yeritsyan 说。
去年获得的 1350 万美元 A 轮融资也助力了公司的这项努力。
Yeritsyan 表示,Podcastle 为 500 分钟的文本转语音转换收取约 40 美元,而 ElevenLabs 则收取 99 美元。
Podcastle 的语音克隆功能也得到了升级,训练过程更加快捷。
此前,训练过程需要朗读大约 70 个不同的句子。现在,只需要几秒钟的录音就能创建声音克隆。新流程还使用了去年发布的 Magic Dust AI 技术来提升音频录制质量。
在我们的测试中,通过新流程创建的语音听起来有些机械感,但确实模仿了我们的语调。公司表示,这个功能会随时间不断改进。此外,用户可以训练不同的声音样本来获得不同的效果。
Podcastle 表示,除了成本优势外,在一个重新设计的网站中集成音频、视频、播客和 AI 驱动的朗读工具,将使其在竞争中脱颖而出。Yeritsyan 说,虽然大多数用户使用 Podcastle 处理音频内容,但视频内容的使用量也在快速增长。
好文章,需要你的鼓励
本文介绍了如何在Windows和macOS等主流操作系统上使用免费开源软件,无需更换操作系统即可摆脱付费订阅。文章推荐了Ninite等工具来安装免费软件,并详细介绍了Firefox、Thunderbird、LibreOffice、VLC等优秀的开源替代方案。作者强调虽然学习新工具需要时间投入,但从长远来看,使用不依赖订阅模式的替代工具将带来巨大回报。
这项由多伦多大学领导的研究首次系统性地揭示了分词器选择对语言模型性能的重大影响。通过训练14个仅在分词器上有差异的相同模型,并使用包含5000个现实场景测试样本的基准测试,研究发现分词器的算法设计比词汇表大小更重要,字符级处理虽然效率较低但稳定性更强,而Unicode格式化是所有分词器的普遍弱点。这一发现将推动AI系统基础组件的优化发展。
随着生成式人工智能系统提供直接答案而非链接列表,传统搜索引擎优化正面临重大变革。谷歌AI概述功能已覆盖约30%的美国搜索,导致网站点击率大幅下降。专家预测,到2030年AI将占B2B软件研究的70%以上。AI引擎更重视结构化数据、实体识别和权威性,而非传统的关键词和反向链接。营销人员需要采用实体权威工程等新策略来优化AI可见性。
北京大学研究团队提出NExT-Vid方法,首次将自回归下一帧预测引入视频AI预训练。通过创新的上下文隔离设计和流匹配解码器,让机器像人类一样预测视频下一帧来学习理解视频内容。该方法在四个标准数据集上全面超越现有生成式预训练方法,为视频推荐、智能监控、医疗诊断等应用提供了新的技术基础。