无论准备与否,生成式AI已经到来,并且就在你手中。ChatGPT席卷全球,尽管面临谷歌、三星和Meta等重量级竞争对手的挑战,依然备受欢迎。AI工具正被集成到各种产品中,包括微软必应等网络浏览器、Galaxy S24等手机,甚至是大众高尔夫等汽车。无论你想完成什么任务,都可能有相应的AI助手来帮助你。
现在,CNET推出了相关评测,帮助你决定使用哪种AI以及了解使用预期。我们的编辑团队正在亲自测试AI聊天机器人、图像生成器和其他AI工具,以了解它们的优势和劣势。我们的目标是:在你决定哪种AI最适合你时提供指导。
为了执行测试,我们会实际使用这些生成式AI聊天机器人、图片生成器和其他正在评测的AI工具,就像我们使用手机来评测手机一样。但评测本身,与CNET的其他实体评测一样,都是由我们的内部专家团队撰写的。更多信息,请查看CNET的AI政策。
CNET如何评测AI产品和服务
目前CNET上的AI产品和服务评测分为以下几个类别。随着我们评测的发展,我们计划增加更多类别。
生成式AI聊天机器人 [ChatGPT、Google Gemini、Perplexity]
文本到图像生成器 [Dall-E 3、Google ImageFX、Adobe Firefly]
专用AI工具 [Otter AI、Grammarly AI]
无论是什么工具或服务,我们的评测都试图回答同一个基本问题:相对于竞争对手它有多好,以及它最适合哪些用途?在任何CNET评测中,我们都会报告你需要了解的关键信息,包括:
优点: 我们列出关于该AI的几个优点。
缺点: 我们也列出至少一个希望该AI能够改进的方面。
价格: 如果有付费版本,费用是多少?如果既有免费版本又有付费版本,两者有什么区别?
隐私: 隐私政策是什么?
访问要求: 该AI是基于网络浏览器、应用程序还是特定设备?你是否需要输入邮箱地址、创建账户或订阅?
我们为每个评测的AI打分,评分范围为1到10分,10分为最高分。我们考虑的因素包括准确性、回复的创意性、幻觉次数和响应速度。这个评分基于我们评测员使用下述测试方法的第一手体验。
CNET如何测试AI聊天机器人
作为"万能引擎",像ChatGPT这样的生成式AI工具不适合进行许多定量的实验室测试,比如手机的电池续航或电视的亮度测试。相反,我们的评估主要基于测试阶段的实际体验,在此期间我们的评测员会向AI提问和设置任务,然后评判其回复和过程。
我们的评估旨在回答以下问题:
使用简单语言获得有用回复的速度和便利性如何?
是否需要大量澄清性提示?
回复的有用性、独特性或创意性如何?
回复与搜索引擎和其他AI聊天机器人相比如何?
回复通常是正确的还是明显的幻觉?
AI是否有"个性",如果有,是否有帮助且有吸引力?
除了了解使用AI的总体感受,我们还测试特定任务和使用场景。为了考虑准确性或幻觉问题,我们会抽查事实并报告发现的任何错误信息。我们的评测员确保在他们个人熟悉的主题上测试聊天机器人。例如,一位评测员让ChatGPT建议一个鸡肉马德拉咖喱的食谱——这是他通过多年烹饪和品尝而熟悉的菜肴。
测试提示可能包括但不限于:
一般写作任务,包括邮件
总结文章或其他长文本
教育,包括研究和引用
求职,包括简历和求职信
旅行或活动规划
食谱创建和修改
购买建议
在评测中,我们报告具体的提示(我们输入的内容)和回复(AI输出的内容),但我们也希望保持测试相对开放,随时间改进我们的方法,并防止AI"学习"我们如何测试它。因此,我们不会在这里列出具体的提示。
CNET如何测试AI文本到图像生成器
生成式AI服务还可以根据你的文字描述创建图像。与聊天机器人一样,我们对这些服务的评测主要是主观的,基于评测员的实际体验。我们对AI文本到图像生成器的评估旨在回答以下问题:
图像与提示的匹配程度如何?
图像的吸引力如何?
你能多好地微调结果以获得想要的图像?
结果到达的速度如何?
AI如何处理包含多个对象的长描述?
是否有功能可以指定图像属性,如宽高比或艺术风格?
是否存在扭曲或其他使图像看起来虚假的问题?
服务的技术拦截器是否真正遵循其政策指导原则(例如,不复制受版权保护的信息)?
与我们对聊天机器人的测试一样,测试提示会有所不同,但可能包括以下内容:
要求以特定风格渲染(照片写实、卡通、像素化等)
在单个图像中组合两个或更多元素
指定元素相对于彼此的位置
包含众多标准的详细描述
测试创意的奇异描述,比如用意大利面做成的灯泡
CNET如何测试其他AI工具
对于既不是聊天机器人也不是文本到图像生成器的AI工具,我们的测试将根据工具特点进行定制。我们将努力确定AI在执行其承诺协助的任务方面的表现如何,并指出AI在帮助完成该任务方面是否有益。
对Otter AI(一个音频转录和笔记服务)的评测重点关注其功能(如生成式AI聊天和自动会议摘要)与传统方法相比的表现如何。我们对Grammarly(一个旨在协助写作者的服务)的评测评估它对提示的响应程度,以及其AI建议的修改(如"缩短"和"改进")是否真正有助于写作过程。
我们不测试什么?
我们无法测试所有内容,也不试图如此。有很多领域超出了我们当前AI测试的范围。它们包括:
抗滥用性:我们不进行旨在让AI提供非法、有害、滥用、歧视或偏见信息的测试。
时事:由于AI是在大量数据集上训练的,这些数据集不一定是最新的,我们不会就近期"新闻中"的事件对所有聊天机器人和其他助手进行测试。
AI建议的结果:作为我们评测过程的一部分,我们不承诺深入评估AI的所有回复和建议。例如,我们不会烹饪和品尝食谱,也无法按照建议的行程安排去旅行。
多重答案:一般来说,我们依赖AI提供的第一个回复进行评测,因为这是大多数人的典型行为。在某些情况下,我们可能会多次运行相同的查询来比较结果,但这不是常态。
AI在发展,我们的评测也在发展
生成式AI仍然是一个新兴的消费产品,所以可以把这些评测视为1.0版本。在过去一年中,AI聊天机器人和其他工具已经有了显著发展,更多选择进入市场,众多模型、训练数据集和AI驱动的设备已经问世。我们预期这种发展会持续下去,我们的AI评测也会随之增长和扩展。随着AI变得更加熟悉并融入我们的生活,CNET的人类专家将为其他人的利益解释、评测和评级这些技术。
好文章,需要你的鼓励
美光发布新款2600客户端QLC固态硬盘,采用自适应写入技术动态优化缓存,使QLC闪存达到TLC级写入性能。该技术通过顶层SLC缓存处理新写入数据,二级TLC缓存应对SLC满载情况,空闲时将数据迁移至QLC模式。硬盘无DRAM设计,采用Phison四通道控制器和美光276层3D NAND,提供512GB至2TB容量选择,相比竞品QLC和TLC固态硬盘,顺序写入速度提升63%,随机写入速度提升49%。
澳大利亚堪培拉大学研究团队首次发现AI在调试代码时存在"疲劳"现象,调试能力会按指数衰减规律急剧下降。研究提出了调试衰减指数(DDI)评估框架,能预测AI调试的最佳干预时机。通过战略性重启方法,在合适时机让AI重新开始,可显著提升调试成功率而无需额外计算资源,为AI编程工具的优化使用提供了科学指导。
在AMD AI推进大会上,CEO苏姿丰展示了公司在AI硬件和软件方面的显著进展。新一代MI350系列GPU性能提升4倍,高端MI355X在内存、计算吞吐量和性价比方面均优于英伟达B200。公司计划2026年推出Helios机架级平台,ROCm 7推理性能提升3.5倍。尽管在GPU训练、TCO优势等方面表现良好,但在NIMs微服务、企业级GPU市场渗透等领域仍需加强,以进一步缩小与英伟达的差距。
Cohere Labs研究团队提出了一种革命性的多语言AI优化方法,无需重新训练模型即可显著提升非英语语言的表现。通过"多重采样+智能选择"策略,让AI生成多个候选答案后选出最优回应。实验显示该方法让8B参数小模型在多语言任务上挑战大型商业模型,平均性能提升6.8-17.3个百分点,为AI多语言应用开辟了高效可行的新路径。