为什么要本地运行 AI
云端大模型好用,但每一条消息都要经过别人的服务器。对于个人助手、代码审查、私密文件处理这类场景,把数据交出去并不是所有人都能接受的。本地运行 AI 的核心优势可以归结为四个字:私、省、快、稳。
- 隐私——数据不出本机。所有推理在 Mac 上完成,prompt 和输出都不经过任何第三方。处理合同、病历、财务数据时尤其重要
- 成本——省掉 API 账单。14B 参数的本地模型已经能搞定日常 80% 的任务(写邮件、总结文档、改代码),而这些在云端意味着每月几十到几百美元的 API 费用。本地模型一次下载,永久免费
- 速度——零网络延迟。本地推理的首 token 延迟通常在 100ms 以内,而云端 API 光网络往返就要 200-500ms(中国用户走代理更慢)。对于需要频繁交互的 Agent 场景,这个差距非常明显
- 离线——断网也能用。飞机上、高铁隧道里、网络故障时,本地 Agent 照常工作。这一点对 7×24 运行的 OpenClaw 来说是关键保障
最务实的方案是混合使用:简单任务交给本地模型(快、免费),复杂推理交给云端 GPT-4 或 Claude(准确率更高)。本文后面的 ClashX 混合路由方案就是为这种架构设计的。
硬件选择:Mac Mini 三档推荐
Apple Silicon 的统一内存架构天然适合大模型推理——CPU 和 GPU 共享同一块内存,不需要像 NVIDIA 显卡那样通过 PCIe 搬运数据。这意味着在同样的内存容量下,Mac 能跑更大的模型,且不存在显存瓶颈。
| 档位 | 机型 | 内存 | 适合模型 | 推理速度 | 价格 |
|---|---|---|---|---|---|
| 入门 | Mac Mini M4 | 16GB | Qwen 3.5 7B, Llama 3.2 | 30-45 t/s | ¥4,299 |
| 推荐 | Mac Mini M4 Pro | 24GB | Phi-4 14B, DeepSeek-R1 14B | 20-25 t/s | ¥9,999 |
| 性能 | Mac Mini M4 Pro | 48GB | Qwen 2.5 32B | 10-15 t/s | ¥14,999 |
🖥️ 推荐:Mac Mini M4 Pro 24GB
24GB 统一内存跑 14B 模型 25 tokens/秒——本地 AI Agent 的性价比之选。日常对话、代码生成、文档处理一台搞定,功耗仅 30W 左右,7×24 运行一个月电费不到 20 元。
前往 Apple 官网查看 Mac Mini →为什么特别推荐 Mac 跑大模型?关键在于统一内存架构(Unified Memory)。传统 PC 上,大模型需要加载到显卡的显存(VRAM)里,而消费级显卡显存普遍只有 8-16GB,严重限制了可运行的模型大小。Mac 的统一内存让 CPU 和 GPU 共享全部内存,24GB 的 Mac Mini 可以直接加载 14B 模型的全部权重,不需要做任何量化妥协。加上 Apple Silicon 的内存带宽(M4 Pro 达到 273GB/s),推理速度完全够用。
安装 Ollama
Ollama 是目前 Mac 上运行本地大模型最简单的方案——一行命令安装,一行命令拉模型,开箱即用。它会自动检测你的 Apple Silicon 芯片并启用 Metal GPU 加速。
1. 安装与验证
# 安装 Ollama(macOS)
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
# 预期输出: ollama version is 0.18.3
# 拉取推荐模型(24GB 内存选 phi4,16GB 选 qwen3.5)
ollama pull phi4
# 快速测试
ollama run phi4 "用一句话解释统一内存对大模型的好处"2. 配置为后台服务
如果你打算让 Ollama 7×24 运行(配合 OpenClaw),需要把它注册为 macOS 的 launchd 服务:
# 创建 launchd plist
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.server.plist
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN"
"http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
<key>Label</key>
<string>com.ollama.server</string>
<key>ProgramArguments</key>
<array>
<string>/usr/local/bin/ollama</string>
<string>serve</string>
</array>
<key>RunAtLoad</key>
<true/>
<key>KeepAlive</key>
<true/>
<key>EnvironmentVariables</key>
<dict>
<key>OLLAMA_HOST</key>
<string>0.0.0.0:11434</string>
<key>OLLAMA_NUM_PARALLEL</key>
<string>2</string>
<key>OLLAMA_MAX_LOADED_MODELS</key>
<string>2</string>
</dict>
</dict>
</plist>
EOF
# 加载服务
launchctl load ~/Library/LaunchAgents/com.ollama.server.plist
# 验证服务运行状态
curl http://localhost:11434/api/tagsOLLAMA_HOST=0.0.0.0:11434 — 监听所有网络接口,允许局域网内其他设备访问(如果只在本机用,改为 127.0.0.1 更安全)。OLLAMA_NUM_PARALLEL=2 — 允许同时处理 2 个请求,OpenClaw 多任务并行时需要。OLLAMA_MAX_LOADED_MODELS=2 — 同时保持 2 个模型在内存中,避免频繁加载卸载。24GB 内存建议最多 2 个,48GB 可以设为 3。
按内存选模型
模型选择的核心原则很简单:模型大小不能超过可用内存的 80%(系统和 Ollama 本身也要占用内存)。以下是在 M4 Pro 上实测的数据:
| 内存 | 模型 | 速度 (M4 Pro) | 适用场景 |
|---|---|---|---|
| 16GB | Qwen 3.5 7B | 45 t/s | 日常对话、快速任务 |
| 16GB | Llama 3.2 7B | 38 t/s | 通用场景 |
| 24GB | Phi-4 14B | 25 t/s | 复杂推理 |
| 24GB | DeepSeek-R1 14B | 22 t/s | 数学、逻辑 |
| 24GB | Qwen 2.5-coder 14B | 24 t/s | 代码生成 |
| 48GB | Qwen 2.5 32B | 12 t/s | 接近 GPT-4 水平 |
实用建议:不要盲目追大模型。对于 OpenClaw 的日常 Agent 任务(回复消息、管理日历、处理邮件),7B 模型的速度优势远比 32B 模型的智力优势重要——45 t/s 意味着一条回复 0.5 秒出来,而 12 t/s 要将近 2 秒。建议常驻一个 7B 快速模型处理简单任务,需要深度思考时再切换到 14B 或调用云端。Ollama 支持同时加载多个模型,切换几乎无感。
安装配置 OpenClaw
Ollama 准备好之后,接下来安装 OpenClaw 并将它指向本地模型。整个过程不到 5 分钟。
1. 安装 OpenClaw
# 安装 OpenClaw
npx openclaw init
# 进入交互式配置
openclaw onboard
# 在配置向导中:
# 1. 选择模型后端 → Ollama (Local)
# 2. Ollama 地址 → http://localhost:11434(默认即可)
# 3. 选择默认模型 → phi4(或你已拉取的模型)
# 4. 设置 API Key(用于云端备用模型,可跳过)2. 启动 OpenClaw
# 启动 Gateway(后台服务)
openclaw gateway start
# 打开 Dashboard(可视化管理面板)
openclaw dashboard
# 验证 Ollama 连接
openclaw models list
# 应该能看到你已拉取的本地模型3. macOS 特有功能
OpenClaw 在 macOS 上有一些独占能力:
- Apple Shortcuts 集成 — 可以通过 Siri 语音触发 OpenClaw 任务(「嘿 Siri,让 Agent 帮我总结今天的邮件」)
- 通知中心 — Agent 完成任务后通过 macOS 通知推送结果
- iMessage 支持 — 直接在 iMessage 对话中和 Agent 交互(本地通信,不经过网络)
- Keychain 集成 — API Key 等敏感信息存储在 macOS Keychain 中,而非明文配置文件
ClashX 混合路由:本地 + 云端
最实用的架构是本地模型和云端 API 混合使用。ClashX 可以精确控制哪些请求走直连、哪些走代理——本地 Ollama 的请求走 DIRECT(不浪费代理流量),云端 API 的请求走代理节点。
rules:
# === 本地模型 — 直连 ===
- DOMAIN-SUFFIX,localhost,DIRECT
- IP-CIDR,127.0.0.0/8,DIRECT,no-resolve
- IP-CIDR,192.168.0.0/16,DIRECT,no-resolve
# === DeepSeek(中国直连)===
- DOMAIN-SUFFIX,deepseek.com,DIRECT
# === 云端 AI API — 走代理 ===
- DOMAIN-SUFFIX,openai.com,🤖 AI Agent
- DOMAIN-SUFFIX,oaiusercontent.com,🤖 AI Agent
- DOMAIN-SUFFIX,anthropic.com,🤖 AI Agent
- DOMAIN-SUFFIX,claude.ai,🤖 AI Agent
- DOMAIN-SUFFIX,generativelanguage.googleapis.com,🤖 AI Agent
# === 消息平台 — 走代理 ===
- DOMAIN-SUFFIX,whatsapp.com,🤖 AI Agent
- DOMAIN-SUFFIX,whatsapp.net,🤖 AI Agent
- DOMAIN-SUFFIX,telegram.org,🤖 AI Agent
- DOMAIN-SUFFIX,t.me,🤖 AI Agent
- DOMAIN-SUFFIX,discord.com,🤖 AI Agent
- DOMAIN-SUFFIX,signal.org,🤖 AI Agent
# === 其他流量直连 ===
- MATCH,DIRECT本节只展示了混合路由的核心规则。如果你需要完整的节点组配置、DNS 设置、终端代理环境变量等内容,请参考我们的详细教程:OpenClaw + ClashX 代理配置指南。
ClashX 基础版需要手动编辑配置文件。我们推出的 ClashFX 提供可视化规则编辑界面,添加节点组和分流规则只需点击操作。如果你不熟悉 YAML 语法,建议直接 下载 ClashFX。
VPS 替代方案:没有 Mac 也能跑
不是所有人都有 Mac Mini。如果你更倾向于云端部署,VPS 是一个灵活的替代方案。Ollama 同样可以在 Linux VPS 上运行,配合 OpenClaw 实现 24/7 在线的 AI Agent。
VPS 方案的优势在于:不需要本地硬件投入、天然 24 小时在线、公网 IP 方便远程访问。缺点是需要月费、数据不在本地(隐私性降低)、推理速度取决于 VPS 配置。
🖥️ 推荐:Contabo Cloud VPS
Contabo 提供高性价比 Cloud VPS,4 核 / 8GB 低至 $6.99/月,全球 11 个数据中心。8GB 内存足够跑 Ollama 7B 模型,是预算有限时搭建 24/7 AI Agent 的务实选择。
查看 Contabo VPS 方案 →* 此为推广链接(affiliate link),你的购买不会产生额外费用,但我们会获得少量佣金用于维持网站运营。
常见问题
Q: OpenClaw 能完全离线运行吗?
A: 可以。当 OpenClaw 连接 Ollama 本地模型时,所有推理在本机完成,不需要任何网络连接。但如果你同时使用 Telegram、WhatsApp 等消息平台接收指令,这些平台本身需要联网(在中国还需要代理)。纯终端交互 + 本地模型的场景下,断网也完全能用。
Q: 需要多少内存?
A: 最低 16GB 跑 7B 参数模型(如 Qwen 3.5 7B),日常对话、快速任务够用。推荐 24GB 跑 14B 模型(Phi-4、DeepSeek-R1 14B),复杂推理和代码生成体验明显提升。如果追求接近 GPT-4 的效果,48GB 跑 Qwen 2.5 32B 是目前本地的天花板。
Q: 能同时用本地和云端模型吗?
A: 可以,而且这是推荐的使用方式。OpenClaw 支持多模型后端混合——简单任务交给本地 Ollama 模型(零成本、低延迟),复杂任务路由到云端 GPT-4 或 Claude。通过 ClashX 配置混合路由规则,本地请求走 DIRECT,云端 API 走代理,互不干扰。详见本文混合路由章节。
Q: Ollama 和 LM Studio 哪个好?
A: 推理速度两者接近,差异通常在 5% 以内。核心区别在场景:Ollama 是纯命令行工具,轻量、适合无头服务器和后台服务(Mac Mini 24/7 运行首选);LM Studio 有图形界面,适合桌面交互。OpenClaw 官方推荐 Ollama,因为它的 API 兼容性更好,系统资源占用更低,且支持同时加载多个模型。
Q: Mac Mini 怎么 24/7 不休眠?
A: 两步搞定。第一步,终端运行 caffeinate -s -d & 阻止系统和显示器睡眠。第二步,打开系统设置 > 节能,关闭所有睡眠选项,将「在不活动后关闭显示器」设为「永不」。如果通过网线连接,还要勾选「唤醒以供网络访问」。建议把 caffeinate 命令写进 launchd plist 实现开机自动执行,这样断电重启后也能自动保持不休眠状态。