虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施,但这些劳动成果往往比你想象的更容易获得。许多最新发布的模型,包括阿里巴巴的Qwen 3和OpenAI的gpt-oss,甚至可以在普通PC硬件上运行。
如果你真的想了解大语言模型的工作原理,在本地运行一个模型是必不可少的。它还能让你无限制地访问聊天机器人,无需为优先访问权付费,也不会将数据发送到云端。虽然有更简单的工具,但在命令行中使用Llama.cpp能提供最佳性能和最多选项,包括将工作负载分配给CPU或GPU的能力,以及量化(即压缩)模型以实现更快输出的功能。
在底层,许多在PC或Mac上本地运行模型的最受欢迎框架,包括Ollama、Jan或LM Studio,实际上都是基于Llama.cpp开源基础构建的包装器,目标是简化复杂性并改善用户体验。
虽然这些便利功能让新手运行本地模型不那么令人生畏,但在性能和功能方面往往还有不足之处。
截至本文撰写时,Ollama仍不支持Llama.cpp的Vulkan后端,该后端提供更广泛的兼容性和通常更高的生成性能,特别是对AMD GPU和APU。虽然LM Studio确实支持Vulkan,但它缺乏对英特尔SYCL运行时和GGUF模型创建的支持。
在这个实践指南中,我们将探索Llama.cpp,包括如何构建和安装应用程序、在GPU和CPU上部署和服务大语言模型、生成量化模型、最大化性能以及启用工具调用。
**前提条件:**
Llamas.cpp几乎可以在任何设备上运行,包括树莓派。然而,为了获得最佳体验,我们建议使用至少16GB系统内存的机器。
虽然不是必需的,但来自英特尔、AMD或英伟达的专用GPU将大大提高性能。如果你确实有GPU,在开始之前需要确保系统上安装了最新的驱动程序。
对大多数用户来说,安装Llama.cpp就像下载ZIP文件一样简单。
虽然Llama.cpp可能可以从apt、snap或WinGet等包管理器获得,但它更新非常频繁,有时一天多次,所以最好从官方GitHub页面获取最新的预编译二进制文件。
二进制文件可用于macOS、Windows和Ubuntu上基于Arm64和x86-64主机CPU的各种加速器和框架。
如果你不确定选择哪个,这里有一个快速参考表:
英伟达:CUDA
英特尔Arc/Xe:Sycl
AMD:Vulkan或HIP
高通:OpenCL-Adreno
苹果M系列:macOS-Arm64
或者,如果你没有支持的GPU,请为你的操作系统和处理器架构选择相应的"CPU"构建版本。请注意,集成GPU在Llama.cpp中表现不稳定,由于内存带宽限制,即使能够工作,性能也可能不如基于CPU的推理。
下载Llama.cpp后,将文件夹解压到主目录以便访问。
**部署你的第一个模型**
与LM Studio或Ollama等其他应用不同,Llama.cpp是一个命令行工具。要访问它,你需要打开终端并导航到我们刚下载的文件夹。注意,在Linux上,二进制文件位于build/bin目录下。
我们可以运行以下命令在设备上下载并运行Qwen3-8B的4位量化版本:
```
./llama-cli -hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M
```
一旦模型下载完成,只需几秒钟就能启动,你将看到一个基本的命令行聊天界面。
除非你碰巧运行M系列芯片,否则Llama.cpp默认会将模型加载到系统内存中并在CPU上运行。如果你有足够内存的GPU,你可能不想这样做,因为DDR通常比GDDR慢得多。
要使用GPU,我们需要通过添加-ngl标志来指定要卸载到GPU的层数。在这种情况下,Qwen3-8B有37层,但如果你不确定,将-ngl设置为999之类的数字将保证模型完全在GPU上运行。
**处理多个设备**
Llama.cpp会尝试使用所有可用的GPU,如果你同时拥有独立显卡和集成GPU,这可能会导致问题。我们可以使用--device标志指定运行Llama.cpp的GPU。
**服务你的模型**
虽然基于CLI的聊天界面很棒,但它不一定是与Llama.cpp交互的最便捷方式。相反,你可能想将其连接到图形用户界面(GUI)。
幸运的是,Llama.cpp包含一个API服务器,可以连接到任何支持OpenAI兼容端点的应用,如Jan或Open WebUI。如果你只想要一个基本的GUI,不需要做任何特殊操作,只需使用llama-server而不是llama-cli启动模型。
**寻找模型**
Llama.cpp适用于大多数使用GGUF格式量化的模型。这些模型可以在各种模型库中找到,其中Hugging Face是最受欢迎的之一。
如果你在寻找特定模型,值得查看Bartowski、Unsloth和GGML-Org等配置文件,因为他们通常是最先提供新模型GGUF量化版本的。
**量化你自己的模型**
如果你要找的模型还没有GGUF格式版本,你可能可以创建自己的。Llama.cpp提供了将模型转换为GGUF格式然后从16位量化到更低精度的工具。
**从源代码构建**
万一Llama.cpp没有为你的硬件或操作系统提供预编译二进制文件,你需要从源代码构建应用程序。
**性能调优**
到目前为止,我们已经介绍了如何在Llama.cpp中下载、安装、运行、服务和量化模型,但我们只是触及了其功能的表面。
运行llama-cli --help,你会看到真正有多少杠杆可拉和旋钮可转。让我们看看一些更有用的标志。
**工具调用**
如果你的工作负载需要,Llama.cpp还可以从OpenAI兼容的API端点解析工具调用。如果你想要引入外部功能,如时钟、计算器或检查Proxmox集群状态,你需要工具。
对大多数流行模型,包括gpt-oss,不需要特殊设置。只需添加--jinja标志即可。
**总结**
虽然Llama.cpp可能是最全面的模型运行器之一,但我们理解对于初次接触本地大语言模型的人来说可能相当令人生畏。这是我们花了这么长时间做这个应用实践教程的原因之一,也是为什么我们认为像Ollama和LM Studio这样更简单的应用仍然有价值。
Q&A
Q1:Llama.cpp是什么?它与其他大语言模型运行工具有什么区别?
A:Llama.cpp是一个开源的命令行工具,用于在本地运行大语言模型。与Ollama、Jan或LM Studio等图形化工具不同,Llama.cpp提供更高的性能和更多配置选项,包括CPU/GPU工作负载分配、模型量化压缩等功能。许多流行的本地模型运行框架实际上都是基于Llama.cpp构建的包装器。
Q2:使用Llama.cpp运行大语言模型需要什么硬件配置?
A:Llama.cpp几乎可以在任何设备上运行,包括树莓派。但为了获得最佳体验,建议使用至少16GB系统内存的机器。虽然不是必需的,但英特尔、AMD或英伟达的专用GPU能大大提高性能。集成GPU由于内存带宽限制,性能可能不如CPU推理。
Q3:如何在Llama.cpp中优化模型性能?
A:可以通过多种方式优化性能:使用-ngl参数将模型层卸载到GPU;启用Flash Attention(-fa)加速处理;调整上下文窗口大小(-c);设置并行处理数量(-np);启用缓存重用(--cache-reuse);使用投机解码技术;以及根据模型建议调整温度、top-p等采样参数。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。