波兰小创企如何成为数十亿美元AI语音巨头

波兰AI语音公司ElevenLabs由两位30岁创始人Staniszewski和Dabkowski创立,其AI语音技术能够生成极其逼真的人声。公司在四年内从零发展到估值66亿美元,两位创始人均成为亿万富翁。该公司年收入1.93亿美元,净利润1.16亿美元,服务客户包括思科、Epic Games等知名企业。尽管面临深度伪造等技术滥用风险,ElevenLabs仍在与谷歌、微软等科技巨头竞争AI语音市场主导地位。

ElevenLabs的计算机语音如此逼真,甚至能骗过你的母亲。对于这家成立四年的公司来说,这既是福音——其30岁以下30强校友创始人现在都是亿万富翁,也是诅咒。

在波兰,配音电影非常糟糕。一个孤独的旁白员用单调乏味的斯拉夫语调讲述所有对话。没有演员阵容,说话者之间没有变化。年轻观众厌恶这种形式。"问任何一个波兰人,他们都会告诉你这很糟糕,"AI语音公司ElevenLabs联合创始人马特乌什·斯坦尼舍夫斯基说道。"我想这是共产主义时期遗留的廉价内容制作方式。"

在Palantir工作期间,斯坦尼舍夫斯基与高中朋友、谷歌工程师彼得·达布科夫斯基合作实验人工智能。这对搭档意识到,其中一个项目——一个特别有前途的AI公共演讲教练,可以解决波兰独有的恐怖现象:莱昂纳多·迪卡普里奥或斯嘉丽·约翰逊被像马切伊·古多夫斯基这样的旁白"明星"淹没。

两人凑齐积蓄,到2022年5月辞职全职投入ElevenLabs。从一开始,他们的新AI文本转语音生成器就比苹果Siri和亚马逊Alexa的机器人语音好得多。ElevenLabs的AI语音能够表达快乐、兴奋,甚至笑声。

2023年1月,ElevenLabs发布了首个模型。它可以接受任何文本,使用AI以任何声音大声朗读——包括你自己的声音克隆(或者令人担忧的是,别人的声音)。立即出现了需求。作者可以用该软件即时生成有声书(专业版现在起价每月99美元,质量更高,时间更长)。YouTube创作者使用ElevenLabs将视频翻译成其他语言(其模型现在可以说29种语言)。这家总部位于华沙和伦敦的创企与语言学习和冥想应用达成协议;然后哈珀柯林斯和德国贝塔斯曼等媒体公司也加入进来。"显然这是最好的模型,每个人都在采用它,"Andreessen Horowitz的投资者詹妮弗·李说道,该公司在2023年5月共同领投了1900万美元的融资。一年后,联合创始人被评为福布斯欧洲30岁以下30强。

不过,其他人发现了更令人不安的用途:模仿特朗普总统等公众人物的AI声音用于粗俗地解说视频游戏对战,女演员艾玛·沃森朗读《我的奋斗》,播客主持人乔·罗根推销骗局等内容迅速传播。更糟糕的是,欺诈者开始使用AI克隆工具冒充亲人的声音,在复杂的深度伪造诈骗中窃取数百万美元。

这些都没有阻止风险投资家注入资金。ElevenLabs总共筹集了超过3亿美元,10月份估值飙升至66亿美元,成为欧洲最有价值的创企之一。担任CEO的30岁斯坦尼舍夫斯基(公司没有传统头衔)和30岁的研究主管达布科夫斯基现在都是亿万富翁,据福布斯估计,各自身价刚好超过10亿美元。

ElevenLabs过去12个月1.93亿美元收入的大约一半来自思科、Twilio和瑞士招聘机构Adecco等企业,这些公司使用其技术处理客户服务电话或面试求职者。Epic Games使用它为《堡垒之夜》中的角色配音,包括与达斯·维德的对话(得到了詹姆斯·厄尔·琼斯遗产的同意)。另一半收入来自早期采用者YouTube创作者、播客主持人和作者。"当你与他们交谈时,他们的优秀程度令人震惊,"高德纳分析师汤姆·科肖说道。与大多数AI公司不同,ElevenLabs也是盈利的,过去12个月净赚约1.16亿美元(60%的利润率)。

它现在正与谷歌、微软、亚马逊和OpenAI等巨头竞争,成为AI的事实语音标准。这不是一个新领域:科技公司大约十年前就开始推出听取、转录和生成语音的产品。虽然对微软来说这在某种程度上是副业,但萨蒂亚·纳德拉愿意在2022年3月花费200亿美元收购在纳斯达克上市的语音转录服务公司Nuance。OpenAI在2024年10月推出了自己的语音工具,可以将人类对话输入ChatGPT。

但ElevenLabs的300人团队并不是在追赶。其模型如此优秀,能够收取比这些美国竞争对手高达三倍的费用。其拥有10000种异常逼真人声的语音库是迄今为止最大的,现在包括A级明星迈克尔·凯恩和马修·麦康纳。它也更可靠。数据训练创企Labelbox用阅读测验测试了六个顶级语音模型,发现ElevenLabs的错误率比最接近的竞争对手OpenAI少一半。"我们是极少数在语音、语音转文本和音乐方面领先于OpenAI的公司之一。这很难做到,"斯坦尼舍夫斯基说道。ElevenLabs的配方很简单。一小群机器学习研究人员,专注于一个狭窄问题的执着,以及紧张的预算(联合创始人垫付了第一次10万美元的训练运行)推动了模型突破。"拥有大量计算资源可能是诅咒,因为你不会思考如何聪明地解决问题,"达布科夫斯基说道。

但一对有声书旁白员的诉讼暗示了另一个要素。卡丽莎·瓦克和马克·博耶特指控ElevenLabs使用数千本版权保护的有声书来训练其模型。他们声称如此多的书籍被抓取,以至于他们声音的克隆最终成为ElevenLabs的默认选项。该案件中ElevenLabs否认有不当行为,于11月庭外和解。(瓦克和博耶特没有回应评论请求;ElevenLabs拒绝进一步评论。)

成熟度正在显现。该公司最终制定了"禁止"声音清单(主要是政治家和名人),此前ElevenLabs制作的乔·拜登声音克隆被用于在2024年民主党初选前的机器人电话活动中阻止投票。ElevenLabs现在有七名全职人工审核员(加上AI,当然)搜查其片段是否被滥用。新克隆的声音需要通过同意检查,公司提供免费的深度伪造检测器。

斯坦尼舍夫斯基和达布科夫斯基对语音之外有宏大计划。资金紧张的创作者和注重预算的媒体公司都想要免版税的背景音乐,所以他们在8月份推出了AI音乐生成器。没时间拍视频?ElevenLabs将在明年推出AI虚拟形象来制作Sora风格的视频。他们最大胆的赌注是,他们可以将专业知识转化为为客户提供管理所有AI工具的单一中心。"我们正在构建一个平台,允许你创建语音智能体并顺利部署它们,"斯坦尼舍夫斯基说道。

当然,这让ElevenLabs与一群希望做同样事情的其他创企发生冲突。它从最早期就盈利,这很有帮助,但其创企竞争对手资金充足,科技巨头拥有几乎无限的资源。尽管如此,它必须创新。语音模型很快就会商品化。当其他模型赶上时,已经对ElevenLabs定价犹豫的善变客户可能会转向其他公司。

随着从语音扩展到计算密集度更高的音乐和视频,ElevenLabs需要扩大自己的GPU农场以保持竞争力。它已经在俄勒冈州的数据中心项目上花费了5000万美元。"如果我们要在AI领域建立世代性公司,你需要建立规模,我们正在建设,"斯坦尼舍夫斯基说道。

回到波兰,老化的旁白员群体暂时仍在营业。达布科夫斯基没有忘记ElevenLabs的最初愿景,吹嘘他的下一个模型将一次性翻译并配音整部电影。"我们从不放弃我们的使命,"他说。

Q&A

Q1:ElevenLabs是什么?它的核心技术有什么特点?

A:ElevenLabs是一家AI语音公司,由两名波兰创始人成立。其核心技术是AI文本转语音生成器,能够产生极其逼真的人工语音,可以表达快乐、兴奋甚至笑声,远超苹果Siri和亚马逊Alexa的机器人语音效果。

Q2:ElevenLabs如何在短时间内成为独角兽公司?

A:公司成立仅四年就达到66亿美元估值,成为欧洲最有价值的创企之一。关键在于其语音技术明显优于竞争对手,能够收取比美国竞争对手高三倍的费用,并且从早期就实现盈利,过去12个月净赚1.16亿美元。

Q3:ElevenLabs面临哪些争议和挑战?

A:公司面临声音克隆技术被滥用的问题,包括制作假冒公众人物声音进行诈骗。此外还有版权争议,两名有声书旁白员起诉称公司使用版权保护的有声书训练模型。公司现已设立禁止声音清单并加强内容审核。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

12/02

07:49

分享

点赞

邮件订阅