先说结论:Mac Mini M4 Pro 本地跑大模型,真香!
最近搞了一台Mac Mini M4 Pro(48GB内存),想着能不能本地跑大模型,毕竟云端API虽然方便,但费用隐私都是问题。实测下来,部署Ollama+OpenClaw,跑Qwen2.5-Coder:32B和Qwen2.5-VL:7B,速度稳定在10-20 token/s,日常使用完全够用。关键是零费用、完全隐私、模型可随意定制替换。如果你也有M4 Pro或者类似设备,这篇教程带你一步步搞定。
准备工作
硬件要求
- Mac Mini M4 Pro(推荐48GB内存,32B模型需要至少32GB)
- macOS Sequoia 15.0+
- 至少50GB空闲硬盘(模型下载需要)
软件工具
- Ollama:本地模型运行框架
- OpenClaw:开源AI对话客户端(支持OpenAI兼容API)
- 终端(Terminal)
第一步:安装Ollama并下载模型
Ollama安装很简单,去官网下载或者用Homebrew:
brew install ollama安装后启动服务:
ollama serve保持终端运行。然后新开终端下载模型:
ollama pull qwen2.5-coder:32b
ollama pull qwen2.5-vl:7b下载时间取决于网络,32B模型大概20GB,7B模型约4.5GB。耐心等待。
测试模型是否可用:
ollama run qwen2.5-coder:32b输入"Hello"看返回。没问题就退出(Ctrl+D)。
第二步:安装OpenClaw并配置
从OpenClaw官网下载macOS版本,安装后打开。首次运行会要求配置API。
点击"设置" -> "模型" -> "添加模型",填入以下信息:
- 模型名称:随便填,比如"本地Qwen Coder"
- Base URL:
http://localhost:11434(注意:不能加/v1!踩坑点!) - API Key:随便填,比如"ollama"
- 模型ID:
qwen2.5-coder:32b
同样的步骤添加第二个模型:模型ID填qwen2.5-vl:7b。
保存后,回到对话界面,左上角选择模型即可开始对话。
第三步:实测性能
我简单测试了几个场景:
- 代码生成:让qwen2.5-coder写一个Python快排,输出约15 token/s,质量不错。
- 多模态识别:给qwen2.5-vl一张图片问内容,响应约10 token/s,识别准确。
- 长上下文:连续对话10轮,速度稳定在12-18 token/s。
对比云端API,Kimi和MiniMax的免费额度有限,超了要付费。本地部署完全免费,而且数据不出设备,隐私无忧。另外你可以随时换模型,玩转各种开源模型。
踩坑点:Base URL不能含/v1
我一开始配置OpenClaw时,习惯性地在Base URL后面加了/v1(因为很多OpenAI兼容API都这样),结果一直报错无法连接。后来查了Ollama文档才发现,Ollama的API端点就是http://localhost:11434,不需要/v1。去掉后立刻正常。如果你也遇到连接问题,检查这里。
其他注意事项
- Ollama服务必须一直运行,建议设为开机自启:
brew services start ollama。 - 如果内存不足,可以调整模型量化版本,比如
qwen2.5-coder:32b-q4_K_M。 - OpenClaw支持插件和自定义提示词,可以进一步优化体验。
总结
Mac Mini M4 Pro 48GB本地跑大模型完全可行,Ollama+OpenClaw组合免费、隐私、可定制。对于开发者、AI爱好者,这套方案值得一试。如果你手头有M4 Pro,赶紧动手吧!
本文来源:一江山水的随笔
本文地址:https://298.name/post/184.html
主要内容:Mac Mini M4 Pro 48GB本地部署大模型:Ollama+OpenClaw完整指南
版权声明:如无特别注明,转载请注明本文地址!
