我们如何测试AI

生成式AI已融入日常生活，从ChatGPT到各大科技公司的AI工具遍布浏览器、手机和汽车。CNET编辑团队通过实际使用AI聊天机器人、图像生成器等工具进行评测，采用1-10分评分制，重点测试准确性、创造力和响应速度。评测涵盖生成式AI聊天机器人、文本转图像生成器和专用AI工具三大类别，帮助用户选择最适合的AI助手。

无论准备与否，生成式AI已经到来，并且就在你手中。ChatGPT席卷全球，尽管面临谷歌、三星和Meta等重量级竞争对手的挑战，依然备受欢迎。AI工具正被集成到各种产品中，包括微软必应等网络浏览器、Galaxy S24等手机，甚至是大众高尔夫等汽车。无论你想完成什么任务，都可能有相应的AI助手来帮助你。

现在，CNET推出了相关评测，帮助你决定使用哪种AI以及了解使用预期。我们的编辑团队正在亲自测试AI聊天机器人、图像生成器和其他AI工具，以了解它们的优势和劣势。我们的目标是：在你决定哪种AI最适合你时提供指导。

为了执行测试，我们会实际使用这些生成式AI聊天机器人、图片生成器和其他正在评测的AI工具，就像我们使用手机来评测手机一样。但评测本身，与CNET的其他实体评测一样，都是由我们的内部专家团队撰写的。更多信息，请查看CNET的AI政策。

CNET如何评测AI产品和服务

目前CNET上的AI产品和服务评测分为以下几个类别。随着我们评测的发展，我们计划增加更多类别。

生成式AI聊天机器人 [ChatGPT、Google Gemini、Perplexity]

文本到图像生成器 [Dall-E 3、Google ImageFX、Adobe Firefly]

专用AI工具 [Otter AI、Grammarly AI]

无论是什么工具或服务，我们的评测都试图回答同一个基本问题：相对于竞争对手它有多好，以及它最适合哪些用途？在任何CNET评测中，我们都会报告你需要了解的关键信息，包括：

优点：我们列出关于该AI的几个优点。

缺点：我们也列出至少一个希望该AI能够改进的方面。

价格：如果有付费版本，费用是多少？如果既有免费版本又有付费版本，两者有什么区别？

隐私：隐私政策是什么？

访问要求：该AI是基于网络浏览器、应用程序还是特定设备？你是否需要输入邮箱地址、创建账户或订阅？

我们为每个评测的AI打分，评分范围为1到10分，10分为最高分。我们考虑的因素包括准确性、回复的创意性、幻觉次数和响应速度。这个评分基于我们评测员使用下述测试方法的第一手体验。

CNET如何测试AI聊天机器人

作为"万能引擎"，像ChatGPT这样的生成式AI工具不适合进行许多定量的实验室测试，比如手机的电池续航或电视的亮度测试。相反，我们的评估主要基于测试阶段的实际体验，在此期间我们的评测员会向AI提问和设置任务，然后评判其回复和过程。

我们的评估旨在回答以下问题：

使用简单语言获得有用回复的速度和便利性如何？

是否需要大量澄清性提示？

回复的有用性、独特性或创意性如何？

回复与搜索引擎和其他AI聊天机器人相比如何？

回复通常是正确的还是明显的幻觉？

AI是否有"个性"，如果有，是否有帮助且有吸引力？

除了了解使用AI的总体感受，我们还测试特定任务和使用场景。为了考虑准确性或幻觉问题，我们会抽查事实并报告发现的任何错误信息。我们的评测员确保在他们个人熟悉的主题上测试聊天机器人。例如，一位评测员让ChatGPT建议一个鸡肉马德拉咖喱的食谱——这是他通过多年烹饪和品尝而熟悉的菜肴。

测试提示可能包括但不限于：

一般写作任务，包括邮件

总结文章或其他长文本

教育，包括研究和引用

求职，包括简历和求职信

旅行或活动规划

食谱创建和修改

购买建议

在评测中，我们报告具体的提示（我们输入的内容）和回复（AI输出的内容），但我们也希望保持测试相对开放，随时间改进我们的方法，并防止AI"学习"我们如何测试它。因此，我们不会在这里列出具体的提示。

CNET如何测试AI文本到图像生成器

生成式AI服务还可以根据你的文字描述创建图像。与聊天机器人一样，我们对这些服务的评测主要是主观的，基于评测员的实际体验。我们对AI文本到图像生成器的评估旨在回答以下问题：

图像与提示的匹配程度如何？

图像的吸引力如何？

你能多好地微调结果以获得想要的图像？

结果到达的速度如何？

AI如何处理包含多个对象的长描述？

是否有功能可以指定图像属性，如宽高比或艺术风格？

是否存在扭曲或其他使图像看起来虚假的问题？

服务的技术拦截器是否真正遵循其政策指导原则（例如，不复制受版权保护的信息）？

与我们对聊天机器人的测试一样，测试提示会有所不同，但可能包括以下内容：

要求以特定风格渲染（照片写实、卡通、像素化等）

在单个图像中组合两个或更多元素

指定元素相对于彼此的位置

包含众多标准的详细描述

测试创意的奇异描述，比如用意大利面做成的灯泡

CNET如何测试其他AI工具

对于既不是聊天机器人也不是文本到图像生成器的AI工具，我们的测试将根据工具特点进行定制。我们将努力确定AI在执行其承诺协助的任务方面的表现如何，并指出AI在帮助完成该任务方面是否有益。

对Otter AI（一个音频转录和笔记服务）的评测重点关注其功能（如生成式AI聊天和自动会议摘要）与传统方法相比的表现如何。我们对Grammarly（一个旨在协助写作者的服务）的评测评估它对提示的响应程度，以及其AI建议的修改（如"缩短"和"改进"）是否真正有助于写作过程。

我们不测试什么？

我们无法测试所有内容，也不试图如此。有很多领域超出了我们当前AI测试的范围。它们包括：

抗滥用性：我们不进行旨在让AI提供非法、有害、滥用、歧视或偏见信息的测试。

时事：由于AI是在大量数据集上训练的，这些数据集不一定是最新的，我们不会就近期"新闻中"的事件对所有聊天机器人和其他助手进行测试。

AI建议的结果：作为我们评测过程的一部分，我们不承诺深入评估AI的所有回复和建议。例如，我们不会烹饪和品尝食谱，也无法按照建议的行程安排去旅行。

多重答案：一般来说，我们依赖AI提供的第一个回复进行评测，因为这是大多数人的典型行为。在某些情况下，我们可能会多次运行相同的查询来比较结果，但这不是常态。

AI在发展，我们的评测也在发展

生成式AI仍然是一个新兴的消费产品，所以可以把这些评测视为1.0版本。在过去一年中，AI聊天机器人和其他工具已经有了显著发展，更多选择进入市场，众多模型、训练数据集和AI驱动的设备已经问世。我们预期这种发展会持续下去，我们的AI评测也会随之增长和扩展。随着AI变得更加熟悉并融入我们的生活，CNET的人类专家将为其他人的利益解释、评测和评级这些技术。

来源：cnet

0赞

好文章，需要你的鼓励

我们如何测试AI

来源：cnet

2025

06/29

19:40

分享

点赞

千问C端事业群成立后首推平价AI眼镜：低至1999元，搭载千问AI助手

Aqara Hub M200为HomeKit带来Matter支持和新自动化选项

LG智能电视强制安装Copilot快捷方式引发用户不满

Palo Alto Networks与谷歌云签署数十亿美元AI合作协议

OpenAI 获百亿美元融资与AI投资热潮持续升温

Meta计划2026年发布新一代图像视频AI模型

数字孪生联盟推出四个全新测试平台

BT：英国量子技术发展下一阶段取决于网络建设

Kodiak AI利用自动驾驶技术和物联网连接变革货运行业

Oracle和OpenAI数据中心项目获密歇根州监管机构批准

Optera室温光谱烧孔光学存储技术突破

英特尔助火山引擎“优化”AI云技术内核

云服务商如何吞噬你的AI利润：推理陷阱解析

企业AI战略为何需要开源与闭源模型并举：TCO现实考量

OpenAI收购电商AI推荐创业公司Crossing Minds全体员工

IT部门面临的十大挑战与应对策略

CIO放弃散弹枪式做法，采用更具战略性的AI试点

CISO如何成为3090亿美元AI基础设施支出的守门人

企业智能体扩展面临的隐形挑战与解决方案

Salesforce首席执行官：AI已承担公司近半数工作

谷歌推出AI虚拟试衣应用Doppl，让你可视化穿搭效果

AI初创工作室计划每年推出十万家公司

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: