OpenClaw + Ollama:在 Mac 上打造完全私有的 AI Agent

为什么要本地运行 AI

云端大模型好用,但每一条消息都要经过别人的服务器。对于个人助手、代码审查、私密文件处理这类场景,把数据交出去并不是所有人都能接受的。本地运行 AI 的核心优势可以归结为四个字:私、省、快、稳

  • 隐私——数据不出本机。所有推理在 Mac 上完成,prompt 和输出都不经过任何第三方。处理合同、病历、财务数据时尤其重要
  • 成本——省掉 API 账单。14B 参数的本地模型已经能搞定日常 80% 的任务(写邮件、总结文档、改代码),而这些在云端意味着每月几十到几百美元的 API 费用。本地模型一次下载,永久免费
  • 速度——零网络延迟。本地推理的首 token 延迟通常在 100ms 以内,而云端 API 光网络往返就要 200-500ms(中国用户走代理更慢)。对于需要频繁交互的 Agent 场景,这个差距非常明显
  • 离线——断网也能用。飞机上、高铁隧道里、网络故障时,本地 Agent 照常工作。这一点对 7×24 运行的 OpenClaw 来说是关键保障
💡
本地不是要取代云端

最务实的方案是混合使用:简单任务交给本地模型(快、免费),复杂推理交给云端 GPT-4 或 Claude(准确率更高)。本文后面的 ClashX 混合路由方案就是为这种架构设计的。

硬件选择:Mac Mini 三档推荐

Apple Silicon 的统一内存架构天然适合大模型推理——CPU 和 GPU 共享同一块内存,不需要像 NVIDIA 显卡那样通过 PCIe 搬运数据。这意味着在同样的内存容量下,Mac 能跑更大的模型,且不存在显存瓶颈。

档位 机型 内存 适合模型 推理速度 价格
入门 Mac Mini M4 16GB Qwen 3.5 7B, Llama 3.2 30-45 t/s ¥4,299
推荐 Mac Mini M4 Pro 24GB Phi-4 14B, DeepSeek-R1 14B 20-25 t/s ¥9,999
性能 Mac Mini M4 Pro 48GB Qwen 2.5 32B 10-15 t/s ¥14,999

🖥️ 推荐:Mac Mini M4 Pro 24GB

24GB 统一内存跑 14B 模型 25 tokens/秒——本地 AI Agent 的性价比之选。日常对话、代码生成、文档处理一台搞定,功耗仅 30W 左右,7×24 运行一个月电费不到 20 元。

前往 Apple 官网查看 Mac Mini →

为什么特别推荐 Mac 跑大模型?关键在于统一内存架构(Unified Memory)。传统 PC 上,大模型需要加载到显卡的显存(VRAM)里,而消费级显卡显存普遍只有 8-16GB,严重限制了可运行的模型大小。Mac 的统一内存让 CPU 和 GPU 共享全部内存,24GB 的 Mac Mini 可以直接加载 14B 模型的全部权重,不需要做任何量化妥协。加上 Apple Silicon 的内存带宽(M4 Pro 达到 273GB/s),推理速度完全够用。

安装 Ollama

Ollama 是目前 Mac 上运行本地大模型最简单的方案——一行命令安装,一行命令拉模型,开箱即用。它会自动检测你的 Apple Silicon 芯片并启用 Metal GPU 加速。

1. 安装与验证

# 安装 Ollama(macOS)
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version
# 预期输出: ollama version is 0.18.3

# 拉取推荐模型(24GB 内存选 phi4,16GB 选 qwen3.5)
ollama pull phi4

# 快速测试
ollama run phi4 "用一句话解释统一内存对大模型的好处"

2. 配置为后台服务

如果你打算让 Ollama 7×24 运行(配合 OpenClaw),需要把它注册为 macOS 的 launchd 服务:

# 创建 launchd plist
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.server.plist
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN"
  "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
  <key>Label</key>
  <string>com.ollama.server</string>
  <key>ProgramArguments</key>
  <array>
    <string>/usr/local/bin/ollama</string>
    <string>serve</string>
  </array>
  <key>RunAtLoad</key>
  <true/>
  <key>KeepAlive</key>
  <true/>
  <key>EnvironmentVariables</key>
  <dict>
    <key>OLLAMA_HOST</key>
    <string>0.0.0.0:11434</string>
    <key>OLLAMA_NUM_PARALLEL</key>
    <string>2</string>
    <key>OLLAMA_MAX_LOADED_MODELS</key>
    <string>2</string>
  </dict>
</dict>
</plist>
EOF

# 加载服务
launchctl load ~/Library/LaunchAgents/com.ollama.server.plist

# 验证服务运行状态
curl http://localhost:11434/api/tags
💡
关键参数说明

OLLAMA_HOST=0.0.0.0:11434 — 监听所有网络接口,允许局域网内其他设备访问(如果只在本机用,改为 127.0.0.1 更安全)。OLLAMA_NUM_PARALLEL=2 — 允许同时处理 2 个请求,OpenClaw 多任务并行时需要。OLLAMA_MAX_LOADED_MODELS=2 — 同时保持 2 个模型在内存中,避免频繁加载卸载。24GB 内存建议最多 2 个,48GB 可以设为 3。

按内存选模型

模型选择的核心原则很简单:模型大小不能超过可用内存的 80%(系统和 Ollama 本身也要占用内存)。以下是在 M4 Pro 上实测的数据:

内存 模型 速度 (M4 Pro) 适用场景
16GB Qwen 3.5 7B 45 t/s 日常对话、快速任务
16GB Llama 3.2 7B 38 t/s 通用场景
24GB Phi-4 14B 25 t/s 复杂推理
24GB DeepSeek-R1 14B 22 t/s 数学、逻辑
24GB Qwen 2.5-coder 14B 24 t/s 代码生成
48GB Qwen 2.5 32B 12 t/s 接近 GPT-4 水平

实用建议:不要盲目追大模型。对于 OpenClaw 的日常 Agent 任务(回复消息、管理日历、处理邮件),7B 模型的速度优势远比 32B 模型的智力优势重要——45 t/s 意味着一条回复 0.5 秒出来,而 12 t/s 要将近 2 秒。建议常驻一个 7B 快速模型处理简单任务,需要深度思考时再切换到 14B 或调用云端。Ollama 支持同时加载多个模型,切换几乎无感。

安装配置 OpenClaw

Ollama 准备好之后,接下来安装 OpenClaw 并将它指向本地模型。整个过程不到 5 分钟。

1. 安装 OpenClaw

# 安装 OpenClaw
npx openclaw init

# 进入交互式配置
openclaw onboard

# 在配置向导中:
# 1. 选择模型后端 → Ollama (Local)
# 2. Ollama 地址 → http://localhost:11434(默认即可)
# 3. 选择默认模型 → phi4(或你已拉取的模型)
# 4. 设置 API Key(用于云端备用模型,可跳过)

2. 启动 OpenClaw

# 启动 Gateway(后台服务)
openclaw gateway start

# 打开 Dashboard(可视化管理面板)
openclaw dashboard

# 验证 Ollama 连接
openclaw models list
# 应该能看到你已拉取的本地模型

3. macOS 特有功能

OpenClaw 在 macOS 上有一些独占能力:

  • Apple Shortcuts 集成 — 可以通过 Siri 语音触发 OpenClaw 任务(「嘿 Siri,让 Agent 帮我总结今天的邮件」)
  • 通知中心 — Agent 完成任务后通过 macOS 通知推送结果
  • iMessage 支持 — 直接在 iMessage 对话中和 Agent 交互(本地通信,不经过网络)
  • Keychain 集成 — API Key 等敏感信息存储在 macOS Keychain 中,而非明文配置文件

ClashX 混合路由:本地 + 云端

最实用的架构是本地模型和云端 API 混合使用。ClashX 可以精确控制哪些请求走直连、哪些走代理——本地 Ollama 的请求走 DIRECT(不浪费代理流量),云端 API 的请求走代理节点。

rules:
  # === 本地模型 — 直连 ===
  - DOMAIN-SUFFIX,localhost,DIRECT
  - IP-CIDR,127.0.0.0/8,DIRECT,no-resolve
  - IP-CIDR,192.168.0.0/16,DIRECT,no-resolve

  # === DeepSeek(中国直连)===
  - DOMAIN-SUFFIX,deepseek.com,DIRECT

  # === 云端 AI API — 走代理 ===
  - DOMAIN-SUFFIX,openai.com,🤖 AI Agent
  - DOMAIN-SUFFIX,oaiusercontent.com,🤖 AI Agent
  - DOMAIN-SUFFIX,anthropic.com,🤖 AI Agent
  - DOMAIN-SUFFIX,claude.ai,🤖 AI Agent
  - DOMAIN-SUFFIX,generativelanguage.googleapis.com,🤖 AI Agent

  # === 消息平台 — 走代理 ===
  - DOMAIN-SUFFIX,whatsapp.com,🤖 AI Agent
  - DOMAIN-SUFFIX,whatsapp.net,🤖 AI Agent
  - DOMAIN-SUFFIX,telegram.org,🤖 AI Agent
  - DOMAIN-SUFFIX,t.me,🤖 AI Agent
  - DOMAIN-SUFFIX,discord.com,🤖 AI Agent
  - DOMAIN-SUFFIX,signal.org,🤖 AI Agent

  # === 其他流量直连 ===
  - MATCH,DIRECT
💡
完整的 ClashX + OpenClaw 代理配置

本节只展示了混合路由的核心规则。如果你需要完整的节点组配置、DNS 设置、终端代理环境变量等内容,请参考我们的详细教程:OpenClaw + ClashX 代理配置指南

嫌手动编辑 YAML 麻烦?

ClashX 基础版需要手动编辑配置文件。我们推出的 ClashFX 提供可视化规则编辑界面,添加节点组和分流规则只需点击操作。如果你不熟悉 YAML 语法,建议直接 下载 ClashFX

VPS 替代方案:没有 Mac 也能跑

不是所有人都有 Mac Mini。如果你更倾向于云端部署,VPS 是一个灵活的替代方案。Ollama 同样可以在 Linux VPS 上运行,配合 OpenClaw 实现 24/7 在线的 AI Agent。

VPS 方案的优势在于:不需要本地硬件投入、天然 24 小时在线、公网 IP 方便远程访问。缺点是需要月费、数据不在本地(隐私性降低)、推理速度取决于 VPS 配置。

🖥️ 推荐:Contabo Cloud VPS

Contabo 提供高性价比 Cloud VPS,4 核 / 8GB 低至 $6.99/月,全球 11 个数据中心。8GB 内存足够跑 Ollama 7B 模型,是预算有限时搭建 24/7 AI Agent 的务实选择。

查看 Contabo VPS 方案 →

* 此为推广链接(affiliate link),你的购买不会产生额外费用,但我们会获得少量佣金用于维持网站运营。

常见问题

Q: OpenClaw 能完全离线运行吗?

A: 可以。当 OpenClaw 连接 Ollama 本地模型时,所有推理在本机完成,不需要任何网络连接。但如果你同时使用 Telegram、WhatsApp 等消息平台接收指令,这些平台本身需要联网(在中国还需要代理)。纯终端交互 + 本地模型的场景下,断网也完全能用。

Q: 需要多少内存?

A: 最低 16GB 跑 7B 参数模型(如 Qwen 3.5 7B),日常对话、快速任务够用。推荐 24GB 跑 14B 模型(Phi-4、DeepSeek-R1 14B),复杂推理和代码生成体验明显提升。如果追求接近 GPT-4 的效果,48GB 跑 Qwen 2.5 32B 是目前本地的天花板。

Q: 能同时用本地和云端模型吗?

A: 可以,而且这是推荐的使用方式。OpenClaw 支持多模型后端混合——简单任务交给本地 Ollama 模型(零成本、低延迟),复杂任务路由到云端 GPT-4 或 Claude。通过 ClashX 配置混合路由规则,本地请求走 DIRECT,云端 API 走代理,互不干扰。详见本文混合路由章节。

Q: Ollama 和 LM Studio 哪个好?

A: 推理速度两者接近,差异通常在 5% 以内。核心区别在场景:Ollama 是纯命令行工具,轻量、适合无头服务器和后台服务(Mac Mini 24/7 运行首选);LM Studio 有图形界面,适合桌面交互。OpenClaw 官方推荐 Ollama,因为它的 API 兼容性更好,系统资源占用更低,且支持同时加载多个模型。

Q: Mac Mini 怎么 24/7 不休眠?

A: 两步搞定。第一步,终端运行 caffeinate -s -d & 阻止系统和显示器睡眠。第二步,打开系统设置 > 节能,关闭所有睡眠选项,将「在不活动后关闭显示器」设为「永不」。如果通过网线连接,还要勾选「唤醒以供网络访问」。建议把 caffeinate 命令写进 launchd plist 实现开机自动执行,这样断电重启后也能自动保持不休眠状态。