自 2023 年以来,全球对 AIGC 产业的关注越来越广泛。随着 AI2.0 时代的到来,AIGC 不仅仅是将 AI 能力融入到现有应用中那么简单,更是迎来了未来产业范式的再塑造。AI 正在跳跃式地加速渗透到各行 各业,并推动了一场新的生产力和创造力革命。随着 AIGC 产业的发展,AI 产业链各环节参与者的角色、 功能和产品服务将不断调整。未来 AIGC 产业的前景也会更加广阔。
在本文中,我们将以 AIGC 为主题,分析目前行业发展的情况,梳理相关驱动政策,探究 AIGC 产业的 商业模式。接下来,我们将对 AIGC 的产业链进行梳理,针对重点可关注环节进行详细讲解,介绍相关 公司。最后,根据以上内容分析行业未来发展趋势。
AIGC(AI-Generated Content)本质上是一种内容生产方式,即人工智能自动生产内容,是基于深度学 习技术,输入数据后由人工智能通过寻找规律并适当泛化从而生成内容的一种方式。过往的内容创作生 态主要经历了 PGC、UGC 到 AIUGC 的几个阶段,但始终难以平衡创作效率、创作成本及内容质量三者 之间的关系,而 AIGC 可以实现专业创作者和个体自由地发挥创意,降低内容生产的门槛,带来大量内 容供给。
中国 AIGC 产业市场规模
根据第 50 次《中国互联网络发展状况统计报告》,截至 2022 年 6 月,中国互联网普及率已高达 74.4%。在网民规模持续提升、网络接入环境日益多元、企业数字化进程不断加速的宏观环境下,AIGC 技术作为新型内容生产方式,有望渗透人类生产生活,为千行百业带来颠覆变革,开辟人类生产交互新 纪元。艾瑞咨询预测,2023 年中国 AIGC 产业规模约为 143 亿元,随后进入大模型生态培育期,持续 打造与完善底层算力基建、大模型商店平台等新型基础设施,以此孕育成熟技术与产品形态的对外输出。 2028 年,中国 AIGC 产业规模预计将达到 7202 亿元,中国 AIGC 产业生态日益稳固,完成重点领域、 关键场景的技术价值兑现,逐步建立完善模型即服务产业生态,2030 年中国 AIGC 产业规模有望突破 万亿元,达到 11441 亿元。
多模态已成趋势
按模态划分,大模型可分为自然语言处理(NLP)大模型,视觉(CV)大模型、多模态大模型等。按 应用场景划分,大模型可分为通用大模型和行业大模型。通用大模型是指可在不进行微调或少量微调的 情况下完成多场景任务的大模型,具有强大的泛化能力,ChatGPT、华为盘古大模型以及最新发布的 Gemini 都是通用大模型。行业大模型则利用行业知识对大模型进行微调,以满足在金融、汽车、传媒 等不同领域的需求,如金融领域的 BloombergGPT、汽车领域的毫末 DriveGPT、法律领域的 LawGPT_zh 等。
预训练大模型按照模态可以分为文本、图像、视频、代码、音乐生成等多种,但从底层架构上都分属两 类。Transformer 是一种编解码模型框架,适用于处理文本、代码这类强连续性生成任务;Diffusion、 GAN、NeRF 等框架善于处理图像生成类任务。叠加文-图转换技术可以形成文生图模型。由单模态模型 在实际训练时融合其他模态技术,可形成多模态、跨模态大模型,如 GPT-4、文心一言、Midjourney 等,由于多模态模型可接受文本、图像等不同输入输出形式,对应用场景能够更广泛适配,着力发展多 模态模型成为产研两界共同趋势。
产业链分析
AIGC 产业可分为三层,其中模型层和应用层值得关注。AIGC 现有产业链由数据供给、模型开发与定 制、应用与分发构成。目前来看,模型层为关键因素之一;其次,应用层发展空间巨大。上游数据供给 由收集大量原始数据对其进行预处理,以便提供给模型训练,投资确定性强。在中游,使用注释数据开 发和训练 AI 模型以生成内容,在垂直细分领域进行二次开发,来适应定制化需求;下游协助用户使用 模型和算法生成内容,例如:文本、图像、视频等。基于不同的价值创造逻辑,将生成的内容分发到各 种渠道。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。