# 构建企业 AI 的信任与信心基石

企业AI不仅要考虑推理成本和性能,还需确保模型满足严格的安全、隐私和合规要求。建立可信赖的AI系统是关键,这意味着企业除了优化成本和性能外,还需优先考虑模型的完整性和安全性。在选择基础模型时,应采用全面的评估方法,包括安全性、偏见、合规性等多个方面,而不仅仅是关注单一指标。

构建企业 AI 的信任与信心基石

虽然推理成本和性能是企业 AI 的关键因素,但它们并非唯一考量因素。企业还必须确保其 AI 模型能够满足严格的安全、隐私和监管合规要求。稳健 AI 战略的核心在于开发和维护对所部署 AI 系统的信任和信心的能力。这意味着除了优化成本和性能外,企业需要优先考虑模型的完整性和安全性。确保 AI 系统具备充分的防护措施,符合数据保护法规并能保护敏感信息至关重要。

当企业评估哪些基础模型应作为其 AI 实施的一部分时,应采用这种整体方法。例如,考虑最近发布的具有最新思维链推理能力的一些模型。一方面是 Qwen 2.5 7B 和 Llama 3.1 8B,这两个模型由 DeepSeek 使用 DeepSeek R1 进行蒸馏;另一方面是 IBM Granite 3.2。由于前两个模型是由 DeepSeek 从其 R1 模型蒸馏而来,因此对这些模型在安全性方面的任何分析,都必须先从对 DeepSeek R1 的评估开始。

DeepSeek 在发布其最新模型 DeepSeek R1 时震惊了世界,它证明了以传统上与此类努力相关的成本的一小部分来训练高性能模型是可能的。这种成本效益延伸到其推理使用,使其成为希望利用 AI 的企业的经济吸引选择。

然而,尽管在性能和成本效益方面取得了显著进步,DeepSeek R1 却被发现存在关键漏洞。在思科进行的一项研究中,DeepSeek R1 在研究期间 100% 的越狱攻击尝试中都表现出易受攻击的特性。它在某些话题上也表现出强烈的中国偏见,比如对以往政治起义的内容进行压制。

Granite 3.2 是由 IBM 开发的一系列模型,包括语言模型、时间序列模型、地理空间模型、嵌入模型、推测性解码模型、守护模型,以及在这次 3.2 版本中新增的视觉模型。

与 DeepSeek R1 蒸馏的 Qwen 2.5 7B 和 Llama 3.1 8B 类似,Granite 3.2 也将推理能力纳入其语言模型中。然而,与基于 DeepSeek 的模型不同,IBM 声称他们开发 Granite 3.2 的方法在提供推理性能的同时保持了安全性和稳健性。

上图显示了 IBM 使用 AttaQ 基准测试的结果。该基准测试利用大约 1,400 个问题,涵盖欺骗、歧视、有害信息、药物滥用或性内容等类别,来测试目标模型并评估其生成有害、不准确或不良响应的倾向。上述数据显示,当利用 DeepSeek R1 将推理能力赋予 Qwen 2.5 7B 和 Llama 3.1 8B 等较小模型时,安全性和稳健性受到负面影响,而 IBM 实施的思维链推理方法则保持了结果的完整性。

除了实施推理时这种内在的安全维护方法外,作为 Granite 系列模型的一部分,IBM 还提供了名为 Granite Guardian 的配套防护模型,以进一步改进内置性能,并帮助企业在任何选择的模型(不仅仅是 Granite 模型)旁实施防护措施。Granite Guardian 首次在去年作为 IBM 初始 Granite 3.0 发布的一部分引入,用于评估输入提示和输出响应中的偏见、安全性和幻觉。更具体地说,这些模型被训练用于检测越狱、偏见、暴力、亵渎、性内容、不道德行为以及 RAG 和函数调用幻觉。虽然这些功能在之前的版本中也可用,但根据 IBM 的说法,最新的 3.2 版本保持了相同的性能,但使用的活跃参数减少了 40%。这种参数减少显著改善了成本和延迟。

关于成本,DeepSeek R1 通过其 API 每百万输出 token 约为 2.19 美元,而在 watsonx.ai 上运行的 Granite 模型每百万输出 token 的成本在 0.10 至 0.20 美元之间,同时仍然保持了 IBM 模型的可信特性,成本降低了一个数量级。这些成本适用于通过云提供商部署的模型。当本地部署时,成本将根据本地设置而有所不同。然而,云提供商部署成本可以作为一个良好的参考,表明扩展本地实施所需的相对投资量。

这些因素并不一定意味着如果 DeepSeek 是适合工作的工具,你就不能或不应该使用它。然而,它们确实强调了在选择作为企业 AI 系统基础的模型时,需要一个全面的风险评估和管理框架,该框架考虑成本、性能、安全性、安全性以及数据和训练合规性。在大多数应用中,企业必须优先考虑强大的安全措施、定期合规评估和持续监控,以减轻与实施此类系统相关的固有风险。评估确保运营完整性的总成本应该是决定因素,而不仅仅是每个 token 的成本。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

03/19

16:29

分享

点赞

邮件订阅