运行 OpenClaw + Ollama 需要多少内存？

最低 16GB 可以跑 7B 参数模型（如 Qwen 3.5 7B），日常对话和简单任务够用。推荐 24GB 跑 14B 模型（如 Phi-4、DeepSeek-R1 14B），复杂推理和代码生成体验明显提升。48GB 可以跑 32B 模型，接近 GPT-4 水平。

Mac Mini 怎么 24/7 不休眠运行？

两步搞定：1）终端运行 caffeinate -s -d & 阻止系统和显示器睡眠；2）系统设置 > 节能 > 关闭所有睡眠选项，将「在不活动后关闭显示器」设为「永不」。如果用网线连接，还要勾选「唤醒以供网络访问」。建议把 caffeinate 写进 launchd plist 实现开机自启。

OpenClaw + Ollama 本地部署 2026

Q: OpenClaw 能完全离线运行吗？

可以。当 OpenClaw 连接 Ollama 本地模型时，模型推理完全在本机完成，不需要任何网络连接。但如果你同时使用 Telegram、WhatsApp 等消息平台接收指令，这些平台需要网络（在中国还需要代理）。纯终端交互 + 本地模型的场景下，断网也能正常使用。

Q: 能同时用本地和云端模型吗？

可以。OpenClaw 支持多模型后端混合使用。你可以将日常简单任务交给本地 Ollama 模型处理（免费、快速），复杂任务自动路由到云端 GPT-4 或 Claude（效果更好但付费）。通过 ClashX 配置混合路由，本地请求走 DIRECT，云端 API 走代理，两者互不干扰。

Q: Ollama 和 LM Studio 哪个好？

推理速度两者接近，差异通常在 5% 以内。主要区别在使用场景：Ollama 更轻量，纯命令行操作，适合无头服务器和后台服务场景（比如 Mac Mini 24 小时运行）；LM Studio 有图形界面，适合桌面交互使用。OpenClaw 官方推荐 Ollama，因为它的 API 兼容性更好，且资源占用更低。

📋 联盟披露：本页包含联盟推广链接。通过这些链接购买产品，我们可能获得少量佣金，不会增加您的任何费用。所有推荐均基于编辑团队独立评测。了解更多

为什么要本地运行 AI

云端大模型好用，但每一条消息都要经过别人的服务器。对于个人助手、代码审查、私密文件处理这类场景，把数据交出去并不是所有人都能接受的。本地运行 AI 的核心优势可以归结为四个字：私、省、快、稳。

隐私——数据不出本机。所有推理在 Mac 上完成，prompt 和输出都不经过任何第三方。处理合同、病历、财务数据时尤其重要
成本——省掉 API 账单。14B 参数的本地模型已经能搞定日常 80% 的任务（写邮件、总结文档、改代码），而这些在云端意味着每月几十到几百美元的 API 费用。本地模型一次下载，永久免费
速度——零网络延迟。本地推理的首 token 延迟通常在 100ms 以内，而云端 API 光网络往返就要 200-500ms（中国用户走代理更慢）。对于需要频繁交互的 Agent 场景，这个差距非常明显
离线——断网也能用。飞机上、高铁隧道里、网络故障时，本地 Agent 照常工作。这一点对 7×24 运行的 OpenClaw 来说是关键保障

💡

本地不是要取代云端

最务实的方案是混合使用：简单任务交给本地模型（快、免费），复杂推理交给云端 GPT-4 或 Claude（准确率更高）。本文后面的 ClashX 混合路由方案就是为这种架构设计的。

硬件选择：Mac Mini 三档推荐

Apple Silicon 的统一内存架构天然适合大模型推理——CPU 和 GPU 共享同一块内存，不需要像 NVIDIA 显卡那样通过 PCIe 搬运数据。这意味着在同样的内存容量下，Mac 能跑更大的模型，且不存在显存瓶颈。

档位	机型	内存	适合模型	推理速度	价格
入门	Mac Mini M4	16GB	Qwen 3.5 7B, Llama 3.2	30-45 t/s	¥4,299
推荐	Mac Mini M4 Pro	24GB	Phi-4 14B, DeepSeek-R1 14B	20-25 t/s	¥9,999
性能	Mac Mini M4 Pro	48GB	Qwen 2.5 32B	10-15 t/s	¥14,999

🖥️ 推荐：Mac Mini M4 Pro 24GB

24GB 统一内存跑 14B 模型 25 tokens/秒——本地 AI Agent 的性价比之选。日常对话、代码生成、文档处理一台搞定，功耗仅 30W 左右，7×24 运行一个月电费不到 20 元。

前往 Apple 官网查看 Mac Mini →

为什么特别推荐 Mac 跑大模型？关键在于统一内存架构（Unified Memory）。传统 PC 上，大模型需要加载到显卡的显存（VRAM）里，而消费级显卡显存普遍只有 8-16GB，严重限制了可运行的模型大小。Mac 的统一内存让 CPU 和 GPU 共享全部内存，24GB 的 Mac Mini 可以直接加载 14B 模型的全部权重，不需要做任何量化妥协。加上 Apple Silicon 的内存带宽（M4 Pro 达到 273GB/s），推理速度完全够用。

安装 Ollama

Ollama 是目前 Mac 上运行本地大模型最简单的方案——一行命令安装，一行命令拉模型，开箱即用。它会自动检测你的 Apple Silicon 芯片并启用 Metal GPU 加速。

1. 安装与验证

# 安装 Ollama（macOS）
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version
# 预期输出: ollama version is 0.18.3

# 拉取推荐模型（24GB 内存选 phi4，16GB 选 qwen3.5）
ollama pull phi4

# 快速测试
ollama run phi4 "用一句话解释统一内存对大模型的好处"

2. 配置为后台服务

如果你打算让 Ollama 7×24 运行（配合 OpenClaw），需要把它注册为 macOS 的 launchd 服务：

# 创建 launchd plist
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.server.plist
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN"
  "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
  <key>Label</key>
  <string>com.ollama.server</string>
  <key>ProgramArguments</key>
  <array>
    <string>/usr/local/bin/ollama</string>
    <string>serve</string>
  </array>
  <key>RunAtLoad</key>
  <true/>
  <key>KeepAlive</key>
  <true/>
  <key>EnvironmentVariables</key>
  <dict>
    <key>OLLAMA_HOST</key>
    <string>0.0.0.0:11434</string>
    <key>OLLAMA_NUM_PARALLEL</key>
    <string>2</string>
    <key>OLLAMA_MAX_LOADED_MODELS</key>
    <string>2</string>
  </dict>
</dict>
</plist>
EOF

# 加载服务
launchctl load ~/Library/LaunchAgents/com.ollama.server.plist

# 验证服务运行状态
curl http://localhost:11434/api/tags

💡

关键参数说明

OLLAMA_HOST=0.0.0.0:11434 — 监听所有网络接口，允许局域网内其他设备访问（如果只在本机用，改为 127.0.0.1 更安全）。OLLAMA_NUM_PARALLEL=2 — 允许同时处理 2 个请求，OpenClaw 多任务并行时需要。OLLAMA_MAX_LOADED_MODELS=2 — 同时保持 2 个模型在内存中，避免频繁加载卸载。24GB 内存建议最多 2 个，48GB 可以设为 3。

按内存选模型

模型选择的核心原则很简单：模型大小不能超过可用内存的 80%（系统和 Ollama 本身也要占用内存）。以下是在 M4 Pro 上实测的数据：

内存	模型	速度 (M4 Pro)	适用场景
16GB	Qwen 3.5 7B	45 t/s	日常对话、快速任务
16GB	Llama 3.2 7B	38 t/s	通用场景
24GB	Phi-4 14B	25 t/s	复杂推理
24GB	DeepSeek-R1 14B	22 t/s	数学、逻辑
24GB	Qwen 2.5-coder 14B	24 t/s	代码生成
48GB	Qwen 2.5 32B	12 t/s	接近 GPT-4 水平

实用建议：不要盲目追大模型。对于 OpenClaw 的日常 Agent 任务（回复消息、管理日历、处理邮件），7B 模型的速度优势远比 32B 模型的智力优势重要——45 t/s 意味着一条回复 0.5 秒出来，而 12 t/s 要将近 2 秒。建议常驻一个 7B 快速模型处理简单任务，需要深度思考时再切换到 14B 或调用云端。Ollama 支持同时加载多个模型，切换几乎无感。

安装配置 OpenClaw

Ollama 准备好之后，接下来安装 OpenClaw 并将它指向本地模型。整个过程不到 5 分钟。

1. 安装 OpenClaw

# 安装 OpenClaw
npx openclaw init

# 进入交互式配置
openclaw onboard

# 在配置向导中：
# 1. 选择模型后端 → Ollama (Local)
# 2. Ollama 地址 → http://localhost:11434（默认即可）
# 3. 选择默认模型 → phi4（或你已拉取的模型）
# 4. 设置 API Key（用于云端备用模型，可跳过）

2. 启动 OpenClaw

# 启动 Gateway（后台服务）
openclaw gateway start

# 打开 Dashboard（可视化管理面板）
openclaw dashboard

# 验证 Ollama 连接
openclaw models list
# 应该能看到你已拉取的本地模型

3. macOS 特有功能

OpenClaw 在 macOS 上有一些独占能力：

Apple Shortcuts 集成 — 可以通过 Siri 语音触发 OpenClaw 任务（「嘿 Siri，让 Agent 帮我总结今天的邮件」）
通知中心 — Agent 完成任务后通过 macOS 通知推送结果
iMessage 支持 — 直接在 iMessage 对话中和 Agent 交互（本地通信，不经过网络）
Keychain 集成 — API Key 等敏感信息存储在 macOS Keychain 中，而非明文配置文件

ClashX 混合路由：本地 + 云端

最实用的架构是本地模型和云端 API 混合使用。ClashX 可以精确控制哪些请求走直连、哪些走代理——本地 Ollama 的请求走 DIRECT（不浪费代理流量），云端 API 的请求走代理节点。

rules:
  # === 本地模型 — 直连 ===
  - DOMAIN-SUFFIX,localhost,DIRECT
  - IP-CIDR,127.0.0.0/8,DIRECT,no-resolve
  - IP-CIDR,192.168.0.0/16,DIRECT,no-resolve

  # === DeepSeek（中国直连）===
  - DOMAIN-SUFFIX,deepseek.com,DIRECT

  # === 云端 AI API — 走代理 ===
  - DOMAIN-SUFFIX,openai.com,🤖 AI Agent
  - DOMAIN-SUFFIX,oaiusercontent.com,🤖 AI Agent
  - DOMAIN-SUFFIX,anthropic.com,🤖 AI Agent
  - DOMAIN-SUFFIX,claude.ai,🤖 AI Agent
  - DOMAIN-SUFFIX,generativelanguage.googleapis.com,🤖 AI Agent

  # === 消息平台 — 走代理 ===
  - DOMAIN-SUFFIX,whatsapp.com,🤖 AI Agent
  - DOMAIN-SUFFIX,whatsapp.net,🤖 AI Agent
  - DOMAIN-SUFFIX,telegram.org,🤖 AI Agent
  - DOMAIN-SUFFIX,t.me,🤖 AI Agent
  - DOMAIN-SUFFIX,discord.com,🤖 AI Agent
  - DOMAIN-SUFFIX,signal.org,🤖 AI Agent

  # === 其他流量直连 ===
  - MATCH,DIRECT

💡

完整的 ClashX + OpenClaw 代理配置

本节只展示了混合路由的核心规则。如果你需要完整的节点组配置、DNS 设置、终端代理环境变量等内容，请参考我们的详细教程：OpenClaw + ClashX 代理配置指南。

⚡

嫌手动编辑 YAML 麻烦？

ClashX 基础版需要手动编辑配置文件。我们推出的 ClashFX 提供可视化规则编辑界面，添加节点组和分流规则只需点击操作。如果你不熟悉 YAML 语法，建议直接下载 ClashFX。

VPS 替代方案：没有 Mac 也能跑

不是所有人都有 Mac Mini。如果你更倾向于云端部署，VPS 是一个灵活的替代方案。Ollama 同样可以在 Linux VPS 上运行，配合 OpenClaw 实现 24/7 在线的 AI Agent。

VPS 方案的优势在于：不需要本地硬件投入、天然 24 小时在线、公网 IP 方便远程访问。缺点是需要月费、数据不在本地（隐私性降低）、推理速度取决于 VPS 配置。

🖥️ 推荐：Contabo Cloud VPS

Contabo 提供高性价比 Cloud VPS，4 核 / 8GB 低至 $6.99/月，全球 11 个数据中心。8GB 内存足够跑 Ollama 7B 模型，是预算有限时搭建 24/7 AI Agent 的务实选择。

查看 Contabo VPS 方案 →

* 此为推广链接（affiliate link），你的购买不会产生额外费用，但我们会获得少量佣金用于维持网站运营。

常见问题

Q: OpenClaw 能完全离线运行吗？

A: 可以。当 OpenClaw 连接 Ollama 本地模型时，所有推理在本机完成，不需要任何网络连接。但如果你同时使用 Telegram、WhatsApp 等消息平台接收指令，这些平台本身需要联网（在中国还需要代理）。纯终端交互 + 本地模型的场景下，断网也完全能用。

Q: 需要多少内存？

A: 最低 16GB 跑 7B 参数模型（如 Qwen 3.5 7B），日常对话、快速任务够用。推荐 24GB 跑 14B 模型（Phi-4、DeepSeek-R1 14B），复杂推理和代码生成体验明显提升。如果追求接近 GPT-4 的效果，48GB 跑 Qwen 2.5 32B 是目前本地的天花板。

Q: 能同时用本地和云端模型吗？

A: 可以，而且这是推荐的使用方式。OpenClaw 支持多模型后端混合——简单任务交给本地 Ollama 模型（零成本、低延迟），复杂任务路由到云端 GPT-4 或 Claude。通过 ClashX 配置混合路由规则，本地请求走 DIRECT，云端 API 走代理，互不干扰。详见本文混合路由章节。

Q: Ollama 和 LM Studio 哪个好？

A: 推理速度两者接近，差异通常在 5% 以内。核心区别在场景：Ollama 是纯命令行工具，轻量、适合无头服务器和后台服务（Mac Mini 24/7 运行首选）；LM Studio 有图形界面，适合桌面交互。OpenClaw 官方推荐 Ollama，因为它的 API 兼容性更好，系统资源占用更低，且支持同时加载多个模型。

Q: Mac Mini 怎么 24/7 不休眠？

A: 两步搞定。第一步，终端运行 caffeinate -s -d & 阻止系统和显示器睡眠。第二步，打开系统设置 > 节能，关闭所有睡眠选项，将「在不活动后关闭显示器」设为「永不」。如果通过网线连接，还要勾选「唤醒以供网络访问」。建议把 caffeinate 命令写进 launchd plist 实现开机自动执行，这样断电重启后也能自动保持不休眠状态。