使用Llama.cpp在家中私密运行大语言模型

本文详细介绍了如何使用Llama.cpp在个人电脑上本地运行大语言模型。内容涵盖了Llama.cpp的安装配置、模型部署、性能优化、量化压缩、推测解码、工具调用等核心功能。文章指出虽然训练大模型需要巨额投资，但运行已训练好的模型在普通硬件上是完全可行的。通过Llama.cpp，用户可以获得无限制的本地AI服务，避免数据上传云端，同时享受更好的性能和更多定制选项。

虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施，但这些劳动成果往往比你想象的更容易获得。许多最新发布的模型，包括阿里巴巴的Qwen 3和OpenAI的gpt-oss，甚至可以在普通PC硬件上运行。

如果你真的想了解大语言模型的工作原理，在本地运行一个模型是必不可少的。它还能让你无限制地访问聊天机器人，无需为优先访问权付费，也不会将数据发送到云端。虽然有更简单的工具，但在命令行中使用Llama.cpp能提供最佳性能和最多选项，包括将工作负载分配给CPU或GPU的能力，以及量化（即压缩）模型以实现更快输出的功能。

在底层，许多在PC或Mac上本地运行模型的最受欢迎框架，包括Ollama、Jan或LM Studio，实际上都是基于Llama.cpp开源基础构建的包装器，目标是简化复杂性并改善用户体验。

虽然这些便利功能让新手运行本地模型不那么令人生畏，但在性能和功能方面往往还有不足之处。

截至本文撰写时，Ollama仍不支持Llama.cpp的Vulkan后端，该后端提供更广泛的兼容性和通常更高的生成性能，特别是对AMD GPU和APU。虽然LM Studio确实支持Vulkan，但它缺乏对英特尔SYCL运行时和GGUF模型创建的支持。

在这个实践指南中，我们将探索Llama.cpp，包括如何构建和安装应用程序、在GPU和CPU上部署和服务大语言模型、生成量化模型、最大化性能以及启用工具调用。

**前提条件：**

Llamas.cpp几乎可以在任何设备上运行，包括树莓派。然而，为了获得最佳体验，我们建议使用至少16GB系统内存的机器。

虽然不是必需的，但来自英特尔、AMD或英伟达的专用GPU将大大提高性能。如果你确实有GPU，在开始之前需要确保系统上安装了最新的驱动程序。

对大多数用户来说，安装Llama.cpp就像下载ZIP文件一样简单。

虽然Llama.cpp可能可以从apt、snap或WinGet等包管理器获得，但它更新非常频繁，有时一天多次，所以最好从官方GitHub页面获取最新的预编译二进制文件。

二进制文件可用于macOS、Windows和Ubuntu上基于Arm64和x86-64主机CPU的各种加速器和框架。

如果你不确定选择哪个，这里有一个快速参考表：

英伟达：CUDA

英特尔Arc/Xe：Sycl

AMD：Vulkan或HIP

高通：OpenCL-Adreno

苹果M系列：macOS-Arm64

或者，如果你没有支持的GPU，请为你的操作系统和处理器架构选择相应的"CPU"构建版本。请注意，集成GPU在Llama.cpp中表现不稳定，由于内存带宽限制，即使能够工作，性能也可能不如基于CPU的推理。

下载Llama.cpp后，将文件夹解压到主目录以便访问。

**部署你的第一个模型**

与LM Studio或Ollama等其他应用不同，Llama.cpp是一个命令行工具。要访问它，你需要打开终端并导航到我们刚下载的文件夹。注意，在Linux上，二进制文件位于build/bin目录下。

我们可以运行以下命令在设备上下载并运行Qwen3-8B的4位量化版本：

```

./llama-cli -hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M

```

一旦模型下载完成，只需几秒钟就能启动，你将看到一个基本的命令行聊天界面。

除非你碰巧运行M系列芯片，否则Llama.cpp默认会将模型加载到系统内存中并在CPU上运行。如果你有足够内存的GPU，你可能不想这样做，因为DDR通常比GDDR慢得多。

要使用GPU，我们需要通过添加-ngl标志来指定要卸载到GPU的层数。在这种情况下，Qwen3-8B有37层，但如果你不确定，将-ngl设置为999之类的数字将保证模型完全在GPU上运行。

**处理多个设备**

Llama.cpp会尝试使用所有可用的GPU，如果你同时拥有独立显卡和集成GPU，这可能会导致问题。我们可以使用--device标志指定运行Llama.cpp的GPU。

**服务你的模型**

虽然基于CLI的聊天界面很棒，但它不一定是与Llama.cpp交互的最便捷方式。相反，你可能想将其连接到图形用户界面(GUI)。

幸运的是，Llama.cpp包含一个API服务器，可以连接到任何支持OpenAI兼容端点的应用，如Jan或Open WebUI。如果你只想要一个基本的GUI，不需要做任何特殊操作，只需使用llama-server而不是llama-cli启动模型。

**寻找模型**

Llama.cpp适用于大多数使用GGUF格式量化的模型。这些模型可以在各种模型库中找到，其中Hugging Face是最受欢迎的之一。

如果你在寻找特定模型，值得查看Bartowski、Unsloth和GGML-Org等配置文件，因为他们通常是最先提供新模型GGUF量化版本的。

**量化你自己的模型**

如果你要找的模型还没有GGUF格式版本，你可能可以创建自己的。Llama.cpp提供了将模型转换为GGUF格式然后从16位量化到更低精度的工具。

**从源代码构建**

万一Llama.cpp没有为你的硬件或操作系统提供预编译二进制文件，你需要从源代码构建应用程序。

**性能调优**

到目前为止，我们已经介绍了如何在Llama.cpp中下载、安装、运行、服务和量化模型，但我们只是触及了其功能的表面。

运行llama-cli --help，你会看到真正有多少杠杆可拉和旋钮可转。让我们看看一些更有用的标志。

**工具调用**

如果你的工作负载需要，Llama.cpp还可以从OpenAI兼容的API端点解析工具调用。如果你想要引入外部功能，如时钟、计算器或检查Proxmox集群状态，你需要工具。

对大多数流行模型，包括gpt-oss，不需要特殊设置。只需添加--jinja标志即可。

**总结**

虽然Llama.cpp可能是最全面的模型运行器之一，但我们理解对于初次接触本地大语言模型的人来说可能相当令人生畏。这是我们花了这么长时间做这个应用实践教程的原因之一，也是为什么我们认为像Ollama和LM Studio这样更简单的应用仍然有价值。

Q&A

Q1：Llama.cpp是什么？它与其他大语言模型运行工具有什么区别？

A：Llama.cpp是一个开源的命令行工具，用于在本地运行大语言模型。与Ollama、Jan或LM Studio等图形化工具不同，Llama.cpp提供更高的性能和更多配置选项，包括CPU/GPU工作负载分配、模型量化压缩等功能。许多流行的本地模型运行框架实际上都是基于Llama.cpp构建的包装器。

Q2：使用Llama.cpp运行大语言模型需要什么硬件配置？

A：Llama.cpp几乎可以在任何设备上运行，包括树莓派。但为了获得最佳体验，建议使用至少16GB系统内存的机器。虽然不是必需的，但英特尔、AMD或英伟达的专用GPU能大大提高性能。集成GPU由于内存带宽限制，性能可能不如CPU推理。

Q3：如何在Llama.cpp中优化模型性能？

A：可以通过多种方式优化性能：使用-ngl参数将模型层卸载到GPU；启用Flash Attention(-fa)加速处理；调整上下文窗口大小(-c)；设置并行处理数量(-np)；启用缓存重用(--cache-reuse)；使用投机解码技术；以及根据模型建议调整温度、top-p等采样参数。

来源：The Register

0赞

好文章，需要你的鼓励

使用Llama.cpp在家中私密运行大语言模型

来源：The Register

2025

08/26

10:17

分享

点赞

AI测试成数智化合规必选项，驱动企业高质量发展

AI智能体漏洞挖掘成本骤降，Anthropic呼吁AI防御

Spotify年度盘点2025首次推出多人互动功能"盘点派对"

英国SAP用户因商业套件重启授权迷局感到困惑

AWS发布Graviton5定制CPU，为云工作负载带来强劲性能

美光放弃Crucial品牌：告别消费级存储市场

手机里的NPU越来越强，为什么AI体验还在原地踏步？

如何使用现有基础设施让数据做好AI准备

IT领导者快问快答：思科光网络公司首席数字信息官Craig Williams分享AI转型经验

Anthropic CEO警告AI行业泡沫化，批评"YOLO"式投资

雅虎利用AI实时总结橄榄球比赛精彩内容

押注AI智能体，奇奇科技跨越十年的“换挡”与远航

恶意诱导AI提供不良心理健康建议的风险与防护

重新发现人性：原住民智慧如何引领我们的AI未来

Robomart推出新型配送机器人，3美元统一运费挑战外卖巨头

Cloudflare推出企业生成式AI全新安全防护方案

D-Matrix推出3D DRAM芯片架构突破AI"内存墙"瓶颈

生成式AI聊天机器人正在快速发展却伤害用户心理健康

AI在高等教育中走向系统化部署

AI可能改变世界的7大希望

印尼就业平台Pintarnya获得1670万美元A轮融资

ChatGPT新手入门指南：如何开始使用这个超人气AI聊天机器人

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: