由于我们正迈入 AI 将撰写大部分代码的时代,让我们花点时间庆祝那些在推动这一进步前沿的人们。
首先,很明显这一切进展迅速。各大公司纷纷谈论目前由 AI 编写代码所占的比例,而且这一比例正以惊人的速度攀升。此领域已出现大量工作岗位的替代现象。
但有几位极具影响力的人物,凭借对 AI 工具和流程的精通以及对这种技术进步如何展开的独到见解,正逐渐成为家喻户晓的名字。
其中一些先驱还具有预见性——他们公开阐述了自己的观点,且众人正在认真聆听。
下面我们来回顾一下这三位创新者对 2025 年编程世界所发表的一些看法。
Andrej Karpathy
这位前 OpenAI 成员因其在该公司以及近年来在 Tesla 的工作而广为人知。他在 Stanford 获得了与计算机视觉和 NLP(自然语言处理)相关的博士学位。随后,他创立了 Eureka Labs,学生们利用该 AI 原生平台来训练模型。
他最著名的名言是: “ English is the hottest new programming language.”
这句话直接涉及了 vibe coding,并描述了程序员转变为提示工程师的过程。因为 AI 能够自己编写代码,所以 vibe coding 就是提供那些更宏观的提示,观察输出结果,并对其进行微调以获得最终成果。
Riley Brown
Riley Brown 在 YouTube 上非常活跃,并在 AI 领域享有盛名。他实际上创办了一家公司,名为 Vibe Code,该平台旨在帮助开发者借助 AI 工具将他们的项目变为现实。
事实上,人们将“vibe coding”这一术语归功于 Brown,正是他强调如何在追求创造性和不断进化的应用程序时,摒弃传统的确定性编码方式,从而创造出这一概念。
他的名言是: “ manually writing code is going to be a thing of the past.”
而这一变革正在发生。
Tom Preston-Werner
Tom Preston-Werner(至少我所知,他与前者并无直接关系)以其独特的编程风格在线上受到广泛赞誉,他还是代码管控与协作平台 GitHub 的联合创始人。
他还创建了 Jeckyl,一个用于动态网站和博客转换的工具。
他的名言是: “ You’re either one that creates the automation, or you’re getting automated.”
Podcasting Notes
值得注意的是,在这三位中,Brown 与 Karpathy 最近都曾在我最喜爱的播客之一 AI Daily Brief with Nathaniel Whittemore( Nathaniel Whittemore 主持)中接受采访。
具体来说,Whittemore 花时间朗读了 Karpathy 一篇名为 “Power to the People” 的论文中的一些引述,在该文中,这位工程师阐述了 AI 的一些基本特性。以下是部分引述:
“ Transformative technologies usually follow a top-down diffusion path: originating in government or military contexts, passing through corporations, and eventually reaching individuals - think electricity, cryptography, computers, flight, the internet, or GPS. This progression feels intuitive, new and powerful technologies are usually scarce, capital-intensive, and their use requires specialized technical expertise in the early stages. So it strikes me as quite unique and remarkable that LLMs display a dramatic reversal of this pattern - they generate disproportionate benefit for regular people, while their impact is a lot more muted and lagging in corporations and governments.”
“ LLMs offer a very specific profile of capability - that of merely quasi-expert knowledge/performance, but simultaneously across a very wide variety of domains. In other words, they are simultaneously versatile but also shallow and fallible.”
“ Looking forward, the continued diffusion of LLMs of course depends on continued performance improvement and its capability profile. The "benefit distribution" overall is particularly interesting to chart, and depends heavily on the dynamic range of the performance as a function of capital expenditure.”
论文中还有更多内容。这三个引述展示了关于大语言模型使用的一些深层次观点。第一段阐明了 “ power to the people ” 的论点,以及大语言模型如何区别于其他从上而下的技术模式。第二段讲述了模型的专业化程度及其运行方式。第三段则探讨了成本、性能与力量之间的关系。
这就是我们在逐步消化 AI 在我们生活、商业及其他领域中突然融入时,可以作为参考吸取的一些见解。请记住:自动化正在到来。
好文章,需要你的鼓励
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
大模型时代,玛丽·米克尔(Mary Meeker)的名字可能大家不一定熟悉,但是在互联网时代,这位被可被誉为“互联网女皇”的。她是美国风险投资家和前华尔街证券分析师,专注于互联网及新兴技术领域。玛丽·米克尔(Mary Meeker)发了一份340页的《人工智能趋势报告》,粗粗看了一下,并没有非常轰动的观点,但是数据比较全面
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。