当今生成式 AI 工具最令人沮丧的缺陷之一就是经常会提供错误的事实信息。AI 会产生幻觉,这意味着它们提供的信息包含事实错误或其他错误。
通常,错误以虚构细节的形式出现,当 AI 无法回答问题时就会出现这种情况。在这些情况下,它必须设计某种类型的回应,即使信息是错误的。有时你可以发现明显的错误;但有时,你可能完全没有意识到这些错误的存在。
为了看看哪些 AI 工具在提供准确可靠答案方面表现最佳,我测试了几个领先的 AI,具体包括 ChatGPT、Google Gemini、Microsoft Copilot、Claude AI、Meta AI 和 Grok AI。
我向每个 AI 提出了相同系列的问题,看看它们各自如何回应。在每种情况下,我都使用了 AI 的免费版本,没有使用任何高级功能或选项。
测试结果令人意外
虽然一些 AI 提供了误导性或不准确的信息,但它们整体表现相当好。我原本预期会收到更多的幻觉回答。但我向 AI 提出的大部分问题都得到了相对正确的答案。各个平台的回应基本一致,当我单独研究这些回应时,证明它们是准确的。
这次有限的测试可能表明 AI 正变得更加可靠,更不容易出错。除了依赖自己的内部数据外,大多数 AI 还会搜索互联网来研究主题并咨询多个来源。在过去,AI 也会误解它们在网上找到的信息。我记得有一次回应使用了我自己的一篇文章作为来源,但误解了我所写的内容。
重要提醒
当然,这一切都基于我有限的测试。一如既往,你绝不应该完全相信 AI 提供的信息。始终要双重检查和三重检查回应,确保细节正确。
Q&A
Q1:什么是AI幻觉?为什么会出现这种现象?
A:AI幻觉是指人工智能提供包含事实错误或其他错误的信息。通常在AI无法回答问题时,会虚构细节来提供某种类型的回应,即使这些信息是错误的。
Q2:测试中的AI工具整体表现如何?
A:虽然一些AI提供了误导性或不准确的信息,但它们整体表现相当好。大部分问题都得到了相对正确的答案,各个平台的回应基本一致,经过单独研究验证后证明是准确的。
Q3:如何正确使用AI工具避免错误信息?
A:绝不应该完全相信AI提供的信息。始终要双重检查和三重检查回应,确保细节正确。现在大多数AI会搜索互联网研究主题并咨询多个来源,但仍需要用户自己验证信息的准确性。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。