你正赶着完成一个截止日期,于是决定使用 ChatGPT 创作一封营销邮件。你输入 AI 提示:“撰写一封专业的 100 字营销电子邮件。”结果得到的是一份充斥着陈词滥调和专业术语、缺乏你所期望的语气和结构的泛泛之作。这提醒我们,有效的 AI 提示能决定 AI 输出的水平,从平庸到卓越,而掌握这一点归根到底就是一个关键技能——提示工程。
根据 DigitalOcean 每半年一次的 Currents 调查,尽管 45% 的受访者认为 AI 工具让他们的工作变得更轻松,但有 43% 的人觉得这些工具被过度宣传。随着 AI 驱动工作场所的快速变革,这种满意度的差距通常源于无效的 AI 提示,而非技术本身的局限性。制定正确的提示可能意味着获得能够简化工作流程的有价值输出;反之,则可能得到让你心烦意乱的不足回应。
通过理解并应用有效提示工程的原则,你可以显著提升 AI 生成内容的质量。下面让我们一起探讨如何掌握微调 AI 提示的技巧,以获得更佳的效果和更高的生产力。
理解有效 AI 提示的构成
在深入细节之前,理解提示工程的基础是有益的。高效能者认识到,以下四个组成部分构成了任何有效 AI 提示的基石:
Persona:提供有关你自己的信息或你希望 AI 扮演的角色,为回应创造了一个背景。例如,“我是一名营销总监,正在为产品发布做准备”会立即为对话定下基调。
Task:明确定义你希望 AI 执行的任务能够消除歧义。指令要具体,同时保持清晰和简洁。
Context:添加相关的背景信息能够引导 AI 得到更具针对性的结果。这可能包括项目细节、目标受众信息或特定的约束条件。
Format:说明你希望信息以何种形式呈现——无论是电子邮件、报告还是演示文稿——这有助于确保输出符合你的要求。
改善 AI 提示的成熟策略
明确且详细
使用高度具体的 AI 提示可以获得更准确、更相关的响应。
例如,不要只是问:“给出改善客户服务的建议。”
而是试试:“为一家拥有跨三个时区分布支援团队的 B2B 软件公司生成五种缩短客户支援响应时间的策略。每种策略应在 30 天内可实施,并且只需极少的额外预算。”
第二个提示通过明确的参数指导 AI,生成针对你具体情况的解决方案。
提供示例
当你需要 AI 遵循特定格式或风格时,“示范胜于言教”。这种技术有时被称为“few-shot learning”,可显著提高 AI 达成你期望的能力。例如,如果你需要生成多个产品描述,请提供一个你偏爱的风格范例,并要求 AI 遵循这一模式。这种方法减少了修改次数,并创造出更一致的输出。
提供相关数据
AI 系统擅长分析信息,但仅能处理你所提供的数据。在适当情况下,在你的 AI 提示中加入特定的数据点、统计数字或背景信息。对于分析、报告生成和数据驱动决策来说,这一方法尤其有价值。
明确你期望的输出
在编写 AI 提示时,清晰表达你希望最终产品呈现的样子,包括长度、语气、风格以及任何你希望包含或排除的特定元素。例如:“撰写一封面向企业客户、宣布我们新网络安全功能的专业电子邮件。电子邮件大约 250 字,保持自信但不过分技术化的语气,强调商业利益而非技术规格,并包含一个明确的行动号召,邀请预约演示。”
以积极方式构建指令
认知心理学研究表明,相较于消极指令,积极的指令处理效率更高。这一原则同样适用于 AI 提示。
例如,不要说:“不要使用专业术语。”
而应说:“使用简洁、易懂、适合非技术受众的语言。”
积极的表达减少了歧义,帮助 AI 着眼于应该做什么而不是避免什么。
赋予角色定位
赋予 AI 一个特定的角色或视角,可以显著提升其回答的相关性和深度。这种方法利用了 AI 根据上下文线索调整输出的能力。
例如,一个 AI 提示可以这样写:“作为一名在新兴市场拥有丰富经验的资深金融分析师,请评估我们将业务扩展至东南亚的潜在风险与机遇。”
当你需要专业知识或对某主题的特定视角时,这种方法尤其有效。
采用链式思考提示
对于复杂问题,要求 AI 展示其推理过程往往能获得更准确、深思熟虑的回答。研究一再表明,与直接提问相比,请求 AI 进行逐步推理的提示能显著提高问题解决的准确性。
例如:“逐步分析我们季度销售数据,依次识别主要趋势,并解释每个观察结果背后的推理过程。”
这种技术不仅提升了回答质量,还让你看清 AI 得出结论的过程。通过鼓励 AI 有条不紊地解决问题,你可以发现逻辑上的潜在错误,并获得更深入的见解。
将复杂任务拆分为小步骤
在处理复杂项目时,将其拆解成顺序性的 AI 提示往往比试图一条提示搞定所有内容获得更好的结果。例如,与其在一个提示中请求完整的营销计划,你可以先:
首先,请求一个包含关键部分的提纲;
然后,分别请求对每个部分的详细内容;
最后,再请求一个将所有内容串联起来的执行摘要。
这种迭代的方法允许你在每个阶段进行审查和调整,从而得到一个更连贯的最终产品。
常见的 AI 提示陷阱
即便具备扎实的提示工程知识,经验丰富的 AI 专业人士有时也会落入以下陷阱:
信息过载
尽管细节很重要,但若向 AI 提供过多信息可能会使请求失去焦点。目标是提供最低限度且有效的上下文。
指令不够明确
例如“让这个更好”或“改善这个”这样的短语给了 AI 过多的解释空间。始终要具体说明“更好”在你的语境中意味着什么。
忽视模型局限性
不同的 AI 模型有不同的能力和知识截止时间。了解这些局限性有助于你制定在系统约束内能运行的提示,而不是与之作对。
忽略迭代改进
首次给出的 AI 提示很少能完美无缺。根据初步结果,做好进一步改进的准备。
掌握提示工程的艺术
请记住,提示工程既是一门艺术,也是一门科学。虽然上述准则为制定有效 AI 提示奠定了坚实基础,但你不应害怕尝试不同的方法。掌握这一技能后,你将把 AI 从一个偶尔有用的工具,转变为一个能够持续交付卓越成果的强大助手。最重要的是,你还将获得显著影响你在这个日益以 AI 驱动的职业环境中的竞争优势。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。