Mac Mini M4 Pro 48GB本地部署大模型：Ollama+OpenClaw完整指南

2026-06-09 | 技术 | sun | 5752 次阅读

A⁺ A^-

先说结论：Mac Mini M4 Pro 本地跑大模型，真香！

最近搞了一台Mac Mini M4 Pro（48GB内存），想着能不能本地跑大模型，毕竟云端API虽然方便，但费用隐私都是问题。实测下来，部署Ollama+OpenClaw，跑Qwen2.5-Coder:32B和Qwen2.5-VL:7B，速度稳定在10-20 token/s，日常使用完全够用。关键是零费用、完全隐私、模型可随意定制替换。如果你也有M4 Pro或者类似设备，这篇教程带你一步步搞定。

准备工作

硬件要求

Mac Mini M4 Pro（推荐48GB内存，32B模型需要至少32GB）
macOS Sequoia 15.0+
至少50GB空闲硬盘（模型下载需要）

软件工具

Ollama：本地模型运行框架
OpenClaw：开源AI对话客户端（支持OpenAI兼容API）
终端（Terminal）

第一步：安装Ollama并下载模型

Ollama安装很简单，去官网下载或者用Homebrew：

brew install ollama

安装后启动服务：

ollama serve

保持终端运行。然后新开终端下载模型：

ollama pull qwen2.5-coder:32b
ollama pull qwen2.5-vl:7b

下载时间取决于网络，32B模型大概20GB，7B模型约4.5GB。耐心等待。

测试模型是否可用：

ollama run qwen2.5-coder:32b

输入"Hello"看返回。没问题就退出（Ctrl+D）。

第二步：安装OpenClaw并配置

从OpenClaw官网下载macOS版本，安装后打开。首次运行会要求配置API。

点击"设置" -> "模型" -> "添加模型"，填入以下信息：

模型名称：随便填，比如"本地Qwen Coder"
Base URL：http://localhost:11434（注意：不能加/v1！踩坑点！）
API Key：随便填，比如"ollama"
模型ID：qwen2.5-coder:32b

同样的步骤添加第二个模型：模型ID填qwen2.5-vl:7b。

保存后，回到对话界面，左上角选择模型即可开始对话。

第三步：实测性能

我简单测试了几个场景：

代码生成：让qwen2.5-coder写一个Python快排，输出约15 token/s，质量不错。
多模态识别：给qwen2.5-vl一张图片问内容，响应约10 token/s，识别准确。
长上下文：连续对话10轮，速度稳定在12-18 token/s。

对比云端API，Kimi和MiniMax的免费额度有限，超了要付费。本地部署完全免费，而且数据不出设备，隐私无忧。另外你可以随时换模型，玩转各种开源模型。

踩坑点：Base URL不能含/v1

我一开始配置OpenClaw时，习惯性地在Base URL后面加了/v1（因为很多OpenAI兼容API都这样），结果一直报错无法连接。后来查了Ollama文档才发现，Ollama的API端点就是http://localhost:11434，不需要/v1。去掉后立刻正常。如果你也遇到连接问题，检查这里。