一江山水的随笔

当前位置:首页 - 技术 - 正文

Enjoy life!

先说结论:Mac Mini M4 Pro 本地跑大模型,真香!

最近搞了一台Mac Mini M4 Pro(48GB内存),想着能不能本地跑大模型,毕竟云端API虽然方便,但费用隐私都是问题。实测下来,部署Ollama+OpenClaw,跑Qwen2.5-Coder:32B和Qwen2.5-VL:7B,速度稳定在10-20 token/s,日常使用完全够用。关键是零费用、完全隐私、模型可随意定制替换。如果你也有M4 Pro或者类似设备,这篇教程带你一步步搞定。

准备工作

硬件要求

  • Mac Mini M4 Pro(推荐48GB内存,32B模型需要至少32GB)
  • macOS Sequoia 15.0+
  • 至少50GB空闲硬盘(模型下载需要)

软件工具

  • Ollama:本地模型运行框架
  • OpenClaw:开源AI对话客户端(支持OpenAI兼容API)
  • 终端(Terminal)

第一步:安装Ollama并下载模型

Ollama安装很简单,去官网下载或者用Homebrew:

brew install ollama

安装后启动服务:

ollama serve

保持终端运行。然后新开终端下载模型:

ollama pull qwen2.5-coder:32b
ollama pull qwen2.5-vl:7b

下载时间取决于网络,32B模型大概20GB,7B模型约4.5GB。耐心等待。

测试模型是否可用:

ollama run qwen2.5-coder:32b

输入"Hello"看返回。没问题就退出(Ctrl+D)。

第二步:安装OpenClaw并配置

从OpenClaw官网下载macOS版本,安装后打开。首次运行会要求配置API。

点击"设置" -> "模型" -> "添加模型",填入以下信息:

  • 模型名称:随便填,比如"本地Qwen Coder"
  • Base URLhttp://localhost:11434(注意:不能加/v1!踩坑点!)
  • API Key:随便填,比如"ollama"
  • 模型IDqwen2.5-coder:32b

同样的步骤添加第二个模型:模型ID填qwen2.5-vl:7b

保存后,回到对话界面,左上角选择模型即可开始对话。

第三步:实测性能

我简单测试了几个场景:

  • 代码生成:让qwen2.5-coder写一个Python快排,输出约15 token/s,质量不错。
  • 多模态识别:给qwen2.5-vl一张图片问内容,响应约10 token/s,识别准确。
  • 长上下文:连续对话10轮,速度稳定在12-18 token/s。

对比云端API,Kimi和MiniMax的免费额度有限,超了要付费。本地部署完全免费,而且数据不出设备,隐私无忧。另外你可以随时换模型,玩转各种开源模型。

踩坑点:Base URL不能含/v1

我一开始配置OpenClaw时,习惯性地在Base URL后面加了/v1(因为很多OpenAI兼容API都这样),结果一直报错无法连接。后来查了Ollama文档才发现,Ollama的API端点就是http://localhost:11434,不需要/v1。去掉后立刻正常。如果你也遇到连接问题,检查这里。

其他注意事项

  • Ollama服务必须一直运行,建议设为开机自启:brew services start ollama
  • 如果内存不足,可以调整模型量化版本,比如qwen2.5-coder:32b-q4_K_M
  • OpenClaw支持插件和自定义提示词,可以进一步优化体验。

总结

Mac Mini M4 Pro 48GB本地跑大模型完全可行,Ollama+OpenClaw组合免费、隐私、可定制。对于开发者、AI爱好者,这套方案值得一试。如果你手头有M4 Pro,赶紧动手吧!

本文来源:一江山水的随笔

本文地址:https://298.name/post/184.html

主要内容:Mac Mini M4 Pro 48GB本地部署大模型:Ollama+OpenClaw完整指南

版权声明:如无特别注明,转载请注明本文地址!

想找什么搜索会更快哦!
站点信息
  • 文章总数:171
  • 页面总数:1
  • 分类总数:4
  • 标签总数:170
  • 评论总数:61
  • 浏览总数:1643341
控制面板
您好,欢迎到访网站!
  查看权限
Top