当今生成式 AI 工具最令人沮丧的缺陷之一就是经常会提供错误的事实信息。AI 会产生幻觉,这意味着它们提供的信息包含事实错误或其他错误。
通常,错误以虚构细节的形式出现,当 AI 无法回答问题时就会出现这种情况。在这些情况下,它必须设计某种类型的回应,即使信息是错误的。有时你可以发现明显的错误;但有时,你可能完全没有意识到这些错误的存在。
为了看看哪些 AI 工具在提供准确可靠答案方面表现最佳,我测试了几个领先的 AI,具体包括 ChatGPT、Google Gemini、Microsoft Copilot、Claude AI、Meta AI 和 Grok AI。
我向每个 AI 提出了相同系列的问题,看看它们各自如何回应。在每种情况下,我都使用了 AI 的免费版本,没有使用任何高级功能或选项。
测试结果令人意外
虽然一些 AI 提供了误导性或不准确的信息,但它们整体表现相当好。我原本预期会收到更多的幻觉回答。但我向 AI 提出的大部分问题都得到了相对正确的答案。各个平台的回应基本一致,当我单独研究这些回应时,证明它们是准确的。
这次有限的测试可能表明 AI 正变得更加可靠,更不容易出错。除了依赖自己的内部数据外,大多数 AI 还会搜索互联网来研究主题并咨询多个来源。在过去,AI 也会误解它们在网上找到的信息。我记得有一次回应使用了我自己的一篇文章作为来源,但误解了我所写的内容。
重要提醒
当然,这一切都基于我有限的测试。一如既往,你绝不应该完全相信 AI 提供的信息。始终要双重检查和三重检查回应,确保细节正确。
Q&A
Q1:什么是AI幻觉?为什么会出现这种现象?
A:AI幻觉是指人工智能提供包含事实错误或其他错误的信息。通常在AI无法回答问题时,会虚构细节来提供某种类型的回应,即使这些信息是错误的。
Q2:测试中的AI工具整体表现如何?
A:虽然一些AI提供了误导性或不准确的信息,但它们整体表现相当好。大部分问题都得到了相对正确的答案,各个平台的回应基本一致,经过单独研究验证后证明是准确的。
Q3:如何正确使用AI工具避免错误信息?
A:绝不应该完全相信AI提供的信息。始终要双重检查和三重检查回应,确保细节正确。现在大多数AI会搜索互联网研究主题并咨询多个来源,但仍需要用户自己验证信息的准确性。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。