想象一下,你要打造最优秀的AI游戏引擎,或者开发一个AI驱动的营销推荐智能体,又或者创建一个AI个人导师。在走向实现的过程中,你会遇到哪些挑战?
无论你在做什么项目,最终结果很可能都是强大、创新且令人印象深刻的。但这并不会魔法般地自动发生,尽管对我们许多人来说,大语言模型每次运行时都像在施魔法。
在幕后,将新想法转化为现实的努力往往让人感觉是进一步退两步。AI虽然能完成大量工作,但在自我设计方面还未完全自主,这意味着人类仍需承担一些重要工作。了解常见挑战有助于人类创新者成功实现AI"召唤"目标。
**大想法需要大投入**
在任何成本敏感的环境中,决策者往往倾向于保守行事,停留在安全区域。问题是,许多最好的想法都是宏大的,在开始时可能看起来像是冒险或"登月计划"。因此,人们天然地会回避那些最终可能带来最大收益的具体计划。
媒体专家Tom Green在Medium上写道:"在围绕AI的所有炒作中,经常被忽略的是,模型是基于已经创造的内容进行训练的,而不是基于可能创造的内容。因此,存在风险规避倾向。由于网页和用户体验设计领域已经形成了适合屏幕媒体局限性的最佳实践,我们往往忘记了AI的承诺是我们可以创造出别人从未见过的想法。"
认识到这一挑战的人们普遍认为,必须突破这些限制才能进入机会区域。
**责任风险:偏见、数据隐私等问题**
在任何AI项目中,都存在偏见和隐私侵犯这些"拦路虎"。偏见可能扭曲结果,隐私侵犯可能给项目带来负面影响。工程师们正在研读欧洲GDPR条款,审查SWOT分析,试图找到平衡点:如何将正确的数据输入引擎以支持结果,同时不越界创造隐私风险。
ProCreator的Sandesh Subedi写道:"AI驱动的产品严重依赖用户数据。当公司未能清楚解释收集了什么以及如何使用时,这可能会悄无声息地侵蚀信任和用户体验。"
确保AI工具不歧视各类人群也有很高的标准要求。由于人们往往存在歧视倾向,在数字AI引擎上运行时完全避免这一点似乎很棘手。
**界面设计与变更**
对一些规划者来说,核心问题是:界面如何工作?
用户是通过浏览器还是应用程序访问技术?关键数据如何导入系统?有什么云服务配置?
还有控制问题。传统程序员和工程师必须确定控制位置、如何在屏幕上呈现等。AI设计师现在还需要确定用户将控制什么、AI将自主执行什么,以及如何解释项目的任何黑盒方面等。
**获得支持**
然后是组织的人员方面:在我们到达Sam Altman等人暗示的全AI工厂和办公室之前,你必须处理人员共识问题。许多人并不完全信任AI,有些人根本不信任。没有正确的协议,问题就会出现。
Gururo的Abhishek Sharma写道:"缺乏利益相关者信任或目标清晰度的项目往往会遭遇范围蔓延、预算超支或悄然停滞。相反,获得对AI项目支持的举措通常能提供超过平均水平的投资回报率,并成为进一步创新的催化剂。"
**竞争诅咒**
另一个不幸的现实是,在AI设计和实施过程中,往往存在相互竞争的利益相关者群体。
在本月斯坦福"行动中的想象"活动小组讨论中,Bing Gordon、Mark Pincus和Nitin Khanna讨论了这些考虑因素。
Pincus说:"现在,在苹果的应用生态系统中,在游戏行业,每个人都在相互竞争。没有共享学习的概念。一切都是孤立的,而且是有意为之。"
这是在尝试实现创新以获得成功定位时需要攀登的又一座山峰。
**斯坦福"行动中的想象"活动更多引言**
"最好的界面就是没有界面...AI处理的不是代码,而是这些界面。这是我们自己的领域特定语言。我们今天可以指导AI对游戏玩法和游戏行为进行更改。这比今天有人试图重新购买代码要一致得多、可重复得多。" – Nitin Khanna
"我们必须达到这样的程度:尝试的增量成本很便宜...当涉及游戏,特别是3D游戏时,它太沉重、昂贵和缓慢。当你开始在这些引擎中做这件事时,它太慢了,扼杀了创新,因为做愚蠢想法的成本太高,而通常愚蠢的想法才是有效的。" – Mark Pincus
**竞赛进行中**
那些能够克服这些阻碍的人很可能会看到真正的价值。大语言模型是强大的工具,它们可以通过多种不同方式改变我们的生活,几乎总是值得尝试。在我们能够激励这种探索的程度上,我们会过得更好。敬请关注。
Q&A
Q1:AI项目实施中最大的成本挑战是什么?
A:最大的成本挑战在于大想法需要大投入。在成本敏感的环境中,决策者往往倾向于保守行事,回避那些看起来像"登月计划"的宏大想法。但问题是,许多最好的创新想法都需要大胆投资,最终可能带来最大收益的项目在开始时往往看起来风险很高。
Q2:AI项目在数据隐私方面面临哪些主要风险?
A:AI项目在数据隐私方面面临偏见和隐私侵犯两大风险。AI驱动的产品严重依赖用户数据,当公司未能清楚解释收集了什么数据以及如何使用时,可能会侵蚀用户信任。同时,还需要确保AI工具不歧视各类人群,这在技术实现上具有挑战性。
Q3:如何解决AI项目中的人员支持问题?
A:获得组织内部人员支持是关键挑战,因为许多人并不完全信任AI技术。解决方案是建立利益相关者信任和明确项目目标。缺乏支持的项目往往会遭遇范围蔓延、预算超支或停滞,而获得充分支持的AI项目通常能提供超平均水平的投资回报率。
好文章,需要你的鼓励
Google Photos正向美国Android用户推出会话式编辑功能,用户可通过语音或文字提示来编辑照片,而无需手动操作。该功能首先在Pixel 10手机上推出,现已扩展到更多设备。用户需将Google账户设置为英文,并开启人脸分组和位置估算功能。通过点击"帮我编辑"按钮,用户可直接说出编辑需求,如去除背景中的陌生人、调亮颜色或消除眩光。该功能使用先进的Gemini技术,并提供原图与编辑后照片的对比显示。
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
本文深入分析了斯坦福大学AI安全中心举办的研讨会所展示的AI安全领域最新进展。文章探讨了AI安全的两个重要方向:构建更安全的AI和让AI变得更安全,强调这两种方法需要有机结合。通过分析物理AI(如人形机器人)与生成式AI结合的安全挑战,以及可达性分析在AI安全中的应用,展现了当前AI安全研究的前沿技术和实际应用场景。
ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。