我们如何测试AI

生成式AI已融入日常生活,从ChatGPT到各大科技公司的AI工具遍布浏览器、手机和汽车。CNET编辑团队通过实际使用AI聊天机器人、图像生成器等工具进行评测,采用1-10分评分制,重点测试准确性、创造力和响应速度。评测涵盖生成式AI聊天机器人、文本转图像生成器和专用AI工具三大类别,帮助用户选择最适合的AI助手。

无论准备与否,生成式AI已经到来,并且就在你手中。ChatGPT席卷全球,尽管面临谷歌、三星和Meta等重量级竞争对手的挑战,依然备受欢迎。AI工具正被集成到各种产品中,包括微软必应等网络浏览器、Galaxy S24等手机,甚至是大众高尔夫等汽车。无论你想完成什么任务,都可能有相应的AI助手来帮助你。

现在,CNET推出了相关评测,帮助你决定使用哪种AI以及了解使用预期。我们的编辑团队正在亲自测试AI聊天机器人、图像生成器和其他AI工具,以了解它们的优势和劣势。我们的目标是:在你决定哪种AI最适合你时提供指导。

为了执行测试,我们会实际使用这些生成式AI聊天机器人、图片生成器和其他正在评测的AI工具,就像我们使用手机来评测手机一样。但评测本身,与CNET的其他实体评测一样,都是由我们的内部专家团队撰写的。更多信息,请查看CNET的AI政策。

CNET如何评测AI产品和服务

目前CNET上的AI产品和服务评测分为以下几个类别。随着我们评测的发展,我们计划增加更多类别。

生成式AI聊天机器人 [ChatGPT、Google Gemini、Perplexity]

文本到图像生成器 [Dall-E 3、Google ImageFX、Adobe Firefly]

专用AI工具 [Otter AI、Grammarly AI]

无论是什么工具或服务,我们的评测都试图回答同一个基本问题:相对于竞争对手它有多好,以及它最适合哪些用途?在任何CNET评测中,我们都会报告你需要了解的关键信息,包括:

优点: 我们列出关于该AI的几个优点。

缺点: 我们也列出至少一个希望该AI能够改进的方面。

价格: 如果有付费版本,费用是多少?如果既有免费版本又有付费版本,两者有什么区别?

隐私: 隐私政策是什么?

访问要求: 该AI是基于网络浏览器、应用程序还是特定设备?你是否需要输入邮箱地址、创建账户或订阅?

我们为每个评测的AI打分,评分范围为1到10分,10分为最高分。我们考虑的因素包括准确性、回复的创意性、幻觉次数和响应速度。这个评分基于我们评测员使用下述测试方法的第一手体验。

CNET如何测试AI聊天机器人

作为"万能引擎",像ChatGPT这样的生成式AI工具不适合进行许多定量的实验室测试,比如手机的电池续航或电视的亮度测试。相反,我们的评估主要基于测试阶段的实际体验,在此期间我们的评测员会向AI提问和设置任务,然后评判其回复和过程。

我们的评估旨在回答以下问题:

使用简单语言获得有用回复的速度和便利性如何?

是否需要大量澄清性提示?

回复的有用性、独特性或创意性如何?

回复与搜索引擎和其他AI聊天机器人相比如何?

回复通常是正确的还是明显的幻觉?

AI是否有"个性",如果有,是否有帮助且有吸引力?

除了了解使用AI的总体感受,我们还测试特定任务和使用场景。为了考虑准确性或幻觉问题,我们会抽查事实并报告发现的任何错误信息。我们的评测员确保在他们个人熟悉的主题上测试聊天机器人。例如,一位评测员让ChatGPT建议一个鸡肉马德拉咖喱的食谱——这是他通过多年烹饪和品尝而熟悉的菜肴。

测试提示可能包括但不限于:

一般写作任务,包括邮件

总结文章或其他长文本

教育,包括研究和引用

求职,包括简历和求职信

旅行或活动规划

食谱创建和修改

购买建议

在评测中,我们报告具体的提示(我们输入的内容)和回复(AI输出的内容),但我们也希望保持测试相对开放,随时间改进我们的方法,并防止AI"学习"我们如何测试它。因此,我们不会在这里列出具体的提示。

CNET如何测试AI文本到图像生成器

生成式AI服务还可以根据你的文字描述创建图像。与聊天机器人一样,我们对这些服务的评测主要是主观的,基于评测员的实际体验。我们对AI文本到图像生成器的评估旨在回答以下问题:

图像与提示的匹配程度如何?

图像的吸引力如何?

你能多好地微调结果以获得想要的图像?

结果到达的速度如何?

AI如何处理包含多个对象的长描述?

是否有功能可以指定图像属性,如宽高比或艺术风格?

是否存在扭曲或其他使图像看起来虚假的问题?

服务的技术拦截器是否真正遵循其政策指导原则(例如,不复制受版权保护的信息)?

与我们对聊天机器人的测试一样,测试提示会有所不同,但可能包括以下内容:

要求以特定风格渲染(照片写实、卡通、像素化等)

在单个图像中组合两个或更多元素

指定元素相对于彼此的位置

包含众多标准的详细描述

测试创意的奇异描述,比如用意大利面做成的灯泡

CNET如何测试其他AI工具

对于既不是聊天机器人也不是文本到图像生成器的AI工具,我们的测试将根据工具特点进行定制。我们将努力确定AI在执行其承诺协助的任务方面的表现如何,并指出AI在帮助完成该任务方面是否有益。

对Otter AI(一个音频转录和笔记服务)的评测重点关注其功能(如生成式AI聊天和自动会议摘要)与传统方法相比的表现如何。我们对Grammarly(一个旨在协助写作者的服务)的评测评估它对提示的响应程度,以及其AI建议的修改(如"缩短"和"改进")是否真正有助于写作过程。

我们不测试什么?

我们无法测试所有内容,也不试图如此。有很多领域超出了我们当前AI测试的范围。它们包括:

抗滥用性:我们不进行旨在让AI提供非法、有害、滥用、歧视或偏见信息的测试。

时事:由于AI是在大量数据集上训练的,这些数据集不一定是最新的,我们不会就近期"新闻中"的事件对所有聊天机器人和其他助手进行测试。

AI建议的结果:作为我们评测过程的一部分,我们不承诺深入评估AI的所有回复和建议。例如,我们不会烹饪和品尝食谱,也无法按照建议的行程安排去旅行。

多重答案:一般来说,我们依赖AI提供的第一个回复进行评测,因为这是大多数人的典型行为。在某些情况下,我们可能会多次运行相同的查询来比较结果,但这不是常态。

AI在发展,我们的评测也在发展

生成式AI仍然是一个新兴的消费产品,所以可以把这些评测视为1.0版本。在过去一年中,AI聊天机器人和其他工具已经有了显著发展,更多选择进入市场,众多模型、训练数据集和AI驱动的设备已经问世。我们预期这种发展会持续下去,我们的AI评测也会随之增长和扩展。随着AI变得更加熟悉并融入我们的生活,CNET的人类专家将为其他人的利益解释、评测和评级这些技术。

来源:cnet

0赞

好文章,需要你的鼓励

2025

06/29

19:40

分享

点赞

邮件订阅