TwelveLabs完成1亿美元B轮融资,专注AI视频理解技术

AI视频理解公司TwelveLabs宣布完成1亿美元B轮融资,由NEA和NAVER Ventures联合领投,亚马逊、Radical Ventures等机构参与,累计融资超2.07亿美元。公司致力于构建原生理解视频的多模态基础模型,旗下Marengo和Pegasus系列模型可实现视频内容的语义嵌入与结构化解析。此次融资还深化了与AWS的合作,TwelveLabs将优先在AWS Trainium芯片上优化视频推理负载,新模型也将率先登陆AWS平台。

视频AI基础模型开发商TwelveLabs今日宣布完成1亿美元早期融资,旨在突破简单的视频理解边界,向全面智能化迈进。

本轮B轮融资由NEA与NAVER Ventures联合领投,亚马逊、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital以及Red Bull Ventures参与跟投。此轮融资完成后,TwelveLabs累计融资总额已超过2.07亿美元。

"五年前,我们做出了一个逆向押注:机器智能的底层基础是运动中被记录的现实,而非语言。"联合创始人兼首席执行官Jae Lee表示,"语言是理解的下游产物,视频才是理解真正需要回答的数据。"

TwelveLabs凭借自研技术,在视频AI领域构建了前沿基础模型,具备真正的视频理解能力。该公司从底层出发,打造了原生理解视频的多模态模型,而非简单在大语言模型上叠加视频处理能力。

公司旗下核心产品包括Marengo模型系列(去年底发布了3.0版本)以及Pegasus 1.5模型。

Marengo实现了对视频、音频、文本及内容构成的真实AI向量嵌入,能够解析多种类型的内容,并将其存入向量数据库等机器可读数据结构,从而使AI模型能够大规模理解和检索相关信息。

Pegasus则与Marengo协同工作,将视频转化为结构化数据。它能够识别场景边界、实体对象、时间片段以及事件内容,使大语言模型得以对视觉信息进行推理。其工作方式类似于大语言模型处理长文档和图像的机制——通过标记语言对内容进行摘要,以便于理解。

当前的大语言模型无法一次性处理完整视频,只能将其切分为一系列截图帧再进行推理。TwelveLabs表示,公司构建了一种原生理解时序变化的推理能力——模型在多次查询之间保持持续记忆,而非每次查询后清空状态,使智能随着处理视频数量的增加不断积累深化。

公司表示,借助上述模型,将致力于建立视频感知的全新范式,打造一套能够让机器分析、检索和利用视频素材的完整系统。

该技术的应用场景横跨安全监控、广告营销、体育分析和汽车行业等多个领域,这些行业均拥有海量的视频信息资产。

在本轮融资的同时,TwelveLabs也进一步深化了与亚马逊云科技(AWS)的合作关系。公司服务自2025年起已在AWS Marketplace上线,并可通过Amazon Bedrock托管访问基础模型。AWS目前已是TwelveLabs的首选云服务提供商。随着此次投资落地,公司还签署了一项多年期承诺,将视频推理工作负载专项优化至AWS Trainium芯片上,未来新一代前沿模型也将率先在AWS平台发布。

Q&A

Q1:TwelveLabs的Marengo和Pegasus模型分别有什么功能?

A:Marengo负责对视频、音频和文本进行AI向量嵌入,将内容存入向量数据库,让AI模型能够大规模理解和搜索信息。Pegasus则将视频转化为结构化数据,识别场景边界、实体对象和时间片段,使大语言模型能够对视觉内容进行推理,类似大语言模型处理长文档的方式。两者协同工作,共同构建完整的视频理解能力。

Q2:TwelveLabs的视频AI技术和普通大语言模型处理视频有什么区别?

A:普通大语言模型无法直接处理视频,只能将视频切分成一系列截图帧再进行推理,且每次查询后记忆会清空。TwelveLabs则从底层构建了原生理解视频的多模态模型,能够理解时序变化趋势,并在多次查询间保持持续记忆,让模型随处理视频数量增加而不断积累智能。

Q3:TwelveLabs的视频理解技术主要用在哪些行业?

A:TwelveLabs的视频AI技术应用场景广泛,主要覆盖安全监控、广告营销、体育分析和汽车行业等视频数据密集型领域。这些行业拥有大量视频资产,借助TwelveLabs的技术,可实现对视频内容的自动分析、智能检索和业务化应用,大幅提升视频数据的利用效率。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

07/02

15:41

分享

点赞

邮件订阅