01
在AI界,对于如何进一步推动AI的发展,存在两种主要观点。第一种观点认为,计算能力是AI进步的唯一瓶颈。这群人相信,只要我们不断增加计算资源的投入,就能不断提升AI的性能,甚至最终实现AGI(通用人工智能)。简单来说,就是有钱能使AI推磨。就像建造一座高楼大厦,只要有足够的钢筋水泥(计算能力),楼一定可以盖得越来越高。
然而,另一种观点却认为,数据才是关键。他们认为我们正面临一个“数据墙”的瓶颈,无论我们拥有多少计算能力,如果没有足够的数据,AI的进展都会放缓。数据墙的存在让人们意识到,仅靠增加计算能力,已经不能带来显著的性能提升。我们必须同时扩展数据量,才能看到更好的结果。
那么,数据墙到底是什么呢?其实,数据墙就像是我们在玩一个游戏,不管你多厉害,如果没有新的关卡和资源,你就会停滞不前。AI也是一样,再多的计算能力,如果没有足够的新数据来训练,效果也会大打折扣。
02
突破数据墙的可能方法
面对数据墙,业界提出了几种潜在的解决方案,希望能够突破这个瓶颈:
首先是高端专家数据。这些数据比普通互联网数据更有价值,就像有经验的老师给你指点迷津,效率自然高很多。高端专家数据通常来自于专业领域的权威和前沿研究,能提供深度和广度兼备的信息。
其次是强化学习(RL)环境。在这种环境下,AI可以通过模拟和自我学习,不断生成新的数据。这类似于AI在一个虚拟世界中自我修炼,积累经验。例如,在一个虚拟驾驶环境中,AI可以无限次地模拟驾驶场景,从而不断优化自己的驾驶技能。
最后是合成数据。这是一种通过算法生成的数据,能够弥补实际数据的不足。就像电影中的特效,虽然是虚拟的,但看起来同样真实。合成数据可以模拟各种复杂场景和条件,帮助AI模型进行全面训练。
这些方法看起来很有前途,但能否真正突破数据墙仍是未知数。有些专家认为,数据墙只是暂时的技术障碍,可以通过工程设计来解决;另一些人则担心这会导致AI发展的长期停滞。我们可以把数据墙看作是马拉松比赛中的“极点”,有人认为熬过去就行,有人则认为可能跑不完。
分散的资源与未来的不确定性
除了数据和计算能力的挑战,还有一个实际问题是:资源的分配。1000亿美元的GPU投入其实是分散在多个实验室中。像谷歌、OpenAI、Meta、Anthropic等大型实验室,各自占有的资源都不超过总供应量的10-20%。
这意味着,即使某个实验室投入巨资,也很难在短时间内看到单个模型上的巨大突破。这就像是几支足球队分散训练,每支队伍的资源有限,难以形成绝对的优势。
未来的进展或许还依赖于新的算法突破,能够超越当前的缩放定律范式。这也意味着,我们可能需要更大规模的投资,比如5000亿美元,才能真正看到AI的显著进步。
写在最后的话
AI的未来充满了不确定性,计算和数据的挑战依然存在。尽管如此,人工智能毫无疑问将继续改变我们的生活,成为人类历史上最伟大的项目之一。
你怎么看待这些挑战和未来的AI发展?欢迎在评论区分享你的观点,并转发这篇文章,让更多人一起探讨AI的未来吧!
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。