一个不太平静的时期降临到 Sam Altman 身上 — 先是 Elon Musk 的恶意收购,现在又出现了 Goku。字节跳动推出了 Goku,这是一个用于图像和视频生成的先进 AI 模型。这不仅对 OpenAI 和美国等试图确保 AI 技术访问权的政府构成了新的挑战,同时也降低了企业创造价值的门槛。为了抓住这个机遇,企业领导者必须优先提升 AI 素养。
什么是 Goku?
Goku 可以根据文本提示生成高质量的视觉内容。它使用校正流 Transformer,这是一种通过改善模型中信息流动方式来生成更流畅、更准确的图像和视频的 AI 模型。可以将其想象成一个不断完善笔触以使数字创作看起来更自然、更真实的高科技艺术家。最终将减少故障和失真。
像 Goku 这样的开源模型的崛起
Goku 是一个类似 Llama、DeepSeek 的开源 AI 模型。这对全球许多企业和初创公司来说是个好消息,但对 OpenAI 来说则是坏消息。事实越来越清楚,仅仅拥有最好的模型并不能确保长期成功。这也强调了模型"监管"可能无法按照美国设想的方式发挥作用。正如我之前所写:开源软件不能轻易被贸易壁垒限制。
真正的价值不在于 Goku 而在于其应用
Goku 与之前的其他模型一样,正在降低生产成本。我们在编程领域看到过这种情况,在写作领域也看到过,现在轮到视频领域了。像 Goku 和 Sora 这样的模型可以生成富有想象力的内容,比如"用炸鸡做成的鸡"。然而,真正的价值在于企业如何整合和利用 AI 生成的视频、文本和图像。
在营销中,我们向广告公司的创意总监征求想法。他们会提供 20 个不同的方案。但仅有创意还不够 — 真正的挑战在于决定选择这 20 个中的哪一个,以及如何有效地实施它们。我们的重点将从创作转向选择和实施。AI 的成功将取决于其实际应用。
AI 素养至关重要
为了帮助将 AI 和生成式 AI 整合到企业的各个环节,公司需要优先提升 AI 素养。自上而下的方式将不起作用,因为没有单一的 AI 应用。AI 将影响从营销和销售到客户体验和生产的每个方面。
因此,在 eCornell "设计和构建 AI 解决方案"认证课程中,我们探索了各个行业的 AI 应用。
深度伪造的风险
随着 AI 降低内容创作的门槛,滥用也变得更加容易。深度伪造 — AI 生成的旨在模仿真实人物的图像、视频和音频 — 带来严重风险。早在 2022 年,我就演示了它们是多么容易创建。这增加了虚假信息、身份盗窃和政治操纵的风险。
随着像 Goku 这样的工具使超现实内容的制作变得更加容易,负责任地使用 AI 和检测深度伪造必须成为优先事项。社会必须对数字内容保持更多怀疑,并投资于识别和对抗假冒的解决方案。再次强调,唯一有效的解决方法是投资于 AI 素养。
Goku 显示中国在 AI 领域的影响力日益增长
Goku 的崛起表明美国在 AI 领域的主导地位不再是板上钉钉。中国公司正在快速发展,强调 AI 素养和应用。要保持竞争力,组织必须理解并有效使用这些技术。
曾经无可匹敌的 OpenAI 现在面临激烈竞争。拥有最好的 AI 模型已经不够了。可持续的成功将取决于构建能使 AI 工具在现实场景中易于访问、适应和创造价值的生态系统。为此,OpenAI 需要资金,因此 Elon Musk 的提议相当具有毒性。
AI 的未来不仅将由像 Goku 这样的技术进步塑造,更重要的是由那些能够最好地实施这些技术的人来塑造。
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
加拿大女王大学研究团队首次对开源AI生态系统进行端到端许可证合规审计,发现35.5%的AI模型在集成到应用时存在许可证违规。他们开发的LicenseRec系统能自动检测冲突并修复86.4%的违规问题,揭示了AI供应链中系统性的"许可证漂移"现象及其法律风险。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
这项由剑桥大学、清华大学和伊利诺伊大学合作的研究首次将扩散大语言模型引入语音识别领域,开发出Whisper-LLaDA系统。该系统具备双向理解能力,能够同时考虑语音的前后文信息,在LibriSpeech数据集上实现了12.3%的错误率相对改进,同时在大多数配置下提供了更快的推理速度,为语音识别技术开辟了新的发展方向。