OpenClaw + Ollama 本地大模型实战：零成本、零隐私泄露的 AI Agent

news2026/3/20 18:06:12

OpenClaw Ollama 本地大模型实战零成本、零隐私泄露的 AI Agent 不想把代码和私人数据发送到云端不想每月为 API 付费本文带你从零搭建完全本地化的 OpenClaw Agent——用 Ollama 运行开源大模型所有数据永远不出 localhost 文章目录为什么要本地化成本、隐私、离线三大动机架构总览OpenClaw Ollama 如何协作硬件要求你的机器能跑什么模型模型选择指南2026 年本地模型排行安装 Ollama方式一ollama launch openclaw最简一键方案方式二手动配置 openclaw.json完全控制上下文窗口本地模型最大的坑实战用本地模型让 Agent 分析私有数据调优技巧让本地模型不再啰嗦混合架构本地云端鱼和熊掌兼得常见问题排查1. 为什么要本地化成本、隐私、离线三大动机现代 AI 工作流通常依赖云端 API。但如果你想要一个完全运行在自己机器上、保护数据隐私、并且支持多步骤 Agent 工作流的系统呢三大动机动机说明零成本OpenClaw Ollama 最大的优势就是成本——唯一的花费是运行电脑的电费。零隐私泄露所有数据集、文档和中间输出都保留在设备上不会传输到外部服务。✈️离线可用一旦通过 Ollama 拉取了模型整个系统无需互联网即可工作。如果你想用 OpenClaw 做个人助手——管理提醒、日历、账单——但又不愿把这些私人数据交给公共 LLM那么本地私有 LLM 就是必要条件。云端方案 vs 本地方案 ☁️ 云端 APIAnthropic / OpenAI ├── ✅ 模型质量最强 ├── ✅ 零配置 ├── ❌ 每月 $20-200 API 费用 ├── ❌ 你的代码和数据发送到远程服务器 └── ❌ 断网就不能用本地 Ollama ├── ✅ 完全免费 ├── ✅ 数据永远不出 localhost ├── ✅ 断网也能用 ├── ⚠️ 需要一定硬件GPU 或 Apple Silicon └── ⚠️ 模型质量比云端旗舰模型低一档如果你处理的是法律文档、医疗信息、客户数据——本地推理可以完全规避跨境数据传输、第三方处理协议等合规问题。你的代码你的 Prompt你的机器。2. 架构总览OpenClaw Ollama 如何协作在本地 Ollama 模型上运行 OpenClaw会将你的系统变成一个自包含的 AI 环境。整个工作流——包括推理、文件访问和产物生成——都在你的机器上运行而不是发送 Prompt 和数据到外部 API。┌─────────────────────────────────────────────────────────┐ │ 你的本地机器 │ │ │ │ ┌───────────────┐ ┌──────────────────┐ │ │ │ OpenClaw │ ◄─────► │ Ollama │ │ │ │ Gateway │ HTTP │ localhost:11434 │ │ │ │ │ │ │ │ │ │ 执行引擎 │ │ 推理引擎 │ │ │ │ · Shell 命令 │ │ · Qwen3.5 │ │ │ │ · 文件读写 │ │ · GLM-4.7 │ │ │ │ · 浏览器控制 │ │ · gpt-oss │ │ │ │ · MCP 工具 │ │ · DeepSeek-R1 │ │ │ └───────────────┘ └──────────────────┘ │ │ ▲ │ │ │ WebSocket / HTTP │ │ ┌──────┴───────┐ │ │ │ 聊天界面 │ TUI / Telegram / Discord / Web │ │ └──────────────┘ │ │ │ │ ❌ 没有任何数据离开这台机器 │ └─────────────────────────────────────────────────────────┘OpenClaw 作为执行引擎Ollama 提供推理层。简单说OpenClaw负责手和脚——执行 Shell 命令、读写文件、调用 MCP 工具Ollama负责大脑——理解指令、推理规划、生成代码Ollama 的baseUrl指向本地 API 端点http://localhost:11434/v1而api: openai-completions设置启用了 OpenAI 兼容通信。3. 硬件要求你的机器能跑什么模型本地模型质量与模型大小成正比模型大小又与硬件需求成正比。硬件分级表GPU 显存 / 统一内存可运行的模型体验等级8 GBQwen3.5:9b、Qwen3.5:35b-a3bMoE仅激活 3B⭐⭐ 能用简单任务16 GBQwen3.5:35b-a3b流畅、Qwen3.5:27bQ4 量化⭐⭐⭐ 好用24 GBQwen3.5:27b Q4_K_M 约 17GB在 4090 上绰绰有余⭐⭐⭐⭐ 很好用32 GBMacQwen3.5:27bQ8、Qwen3.5:122b-a10bQ4⭐⭐⭐⭐ 非常好48 GBQwen3.5:122b-a10b 全面匹配 GPT-5 mini工具调用超 30%⭐⭐⭐⭐⭐ 接近云端最低要求至少 16GB RAM推荐 32GB 以获得更好体验如果没有 GPU模型会在 CPU 上运行速度慢 5-10 倍。GPU 支持能显著加速推理NVIDIA GPU 支持最好AMD GPU 可以工作但性能较低OpenClaw 需要 Node.js 22 或更新版本速度参考模型硬件速度Qwen3.5:35b-a3bRTX 5090194 tok/s比一年前多 7B 模型还快Qwen3.5:27bRTX A6000~20 tok/sQwen3.5:35b-a3bRTX 3090112 tok/sMoE 每次仅激活 3B 参数速度参考线50 tok/s 实时对话流畅25-50 tok/s 绝大多数任务可接受20 tok/s 能用但需要耐心。4. 模型选择指南2026 年本地模型排行自 2026 年 3 月 Ollama 成为 OpenClaw 官方 Provider 以来配置比以往更简单了。而 Qwen3.5 系列改变了本地硬件能做到什么程度的计算公式。推荐排行Tier 1首选推荐2026 年 3 月模型参数SWE-bench特点适合硬件Qwen3.5:27b27BDense72.4%匹配 GPT-5 Mini唯一的 Dense 模型每个 token 每个参数都参与计算推理密度最高24GB GPUQwen3.5:35b-a3b35BMoE激活 3B69.2%MoE 架构35B 总参数仅激活 3B小模型速度大模型知识8-16GB GPUQwen3.5:122b-a10b122BMoE激活 10B~72%工具调用 BFCL-V4 得分 72.2超过 GPT-5 mini55.5整整 30%48GBTier 2其他可选模型说明GLM-4.7-Flash30B MoE仅激活 3B 参数/token原生工具调用支持。中文能力出色gpt-oss:20b20B 参数编码能力强社区热门DeepSeek-R1:32b推理能力出色中文优秀Qwen3.5:9b在多个基准上匹配或超过了 GPT-OSS-120B13 倍大的模型效率惊人选择决策树你的 GPU 显存是多少 │ ├── 8 GB → Qwen3.5:35b-a3bMoE激活仅 3B │ 或 Qwen3.5:9b纯小模型 │ ├── 16 GB → Qwen3.5:35b-a3b流畅 │ 或 Qwen3.5:27b Q4 量化紧凑但可用 │ ├── 24 GB → Qwen3.5:27b Q4_K_M首选最佳编码质量 │ 或 GLM-4.7-Flash中文场景优先 │ ├── 32-48 GBMac 统一内存 │ → Qwen3.5:27b Q8最高量化质量 │ 或 Qwen3.5:122b-a10b Q4 │ └── 48 GB → Qwen3.5:122b-a10b全面匹配 GPT-5 mini⚠️重要提示在模型配置中设置reasoning: false并优先使用 Qwen3.5 系列——它们处理 OpenClaw 的工具调用格式比 Mistral 或老版 Llama 更可靠。建议至少 14B 模型8B 模型可能会出现工具调用幻觉或丢失上下文。5. 安装 OllamaOllama 是运行本地模型最简单的方式。安装它拉取模型你就有了一个运行在 localhost 的 OpenAI 兼容 API。5.1 安装# Linux一键安装curl-fsSLhttps://ollama.com/install.sh|sh# macOS / Windows# 从 https://ollama.com 下载安装包# 验证安装ollama--version5.2 拉取模型根据你的硬件选择模型# 根据你的硬件选一个 # 最佳质量需要 24GB 显存ollama pull qwen3.5:27b# 速度优先8-16GB 即可运行ollama pull qwen3.5:35b-a3b# 轻量级8GB 显存即可ollama pull qwen3.5:9b# 中文场景优秀ollama pull glm-4.7-flash# 编码热门选择ollama pull gpt-oss:20b5.3 快速测试# 先用交互模式确认模型正常工作ollama run qwen3.5:27b# 输入一个简单问题测试CtrlD 退出# 测试 HTTP APIcurlhttp://localhost:11434/api/tags# 如果返回 JSON说明 Ollama 正在运行更重要的是在把模型交给 Agent 之前先在 Ollama 的对话界面测试模型的推理能力。毕竟如果一个模型连基本对话都无法正常处理就没必要浪费时间配置到 Agent 里。6. 方式一ollama launch openclaw最简一键方案这是目前最省事的方式大多数人可以在 5-10 分钟内搞定。6.1 一键启动# 确保已拉取模型ollama pull qwen3.5:27b# 一键启动Ollama 自动配置 OpenClaw 并启动 Gatewayollama launch openclaw这个命令会自动完成配置 Provider → 安装 Gateway 守护进程 → 将你的模型设为 Primary → 在后台启动 Gateway 并打开 OpenClaw TUI 界面。6.2 指定模型启动# 如果你拉了多个模型可以指定用哪个ollama launch openclaw--modelqwen3.5:27b# 或用 GLMollama launch openclaw--modelglm-4.7-flash6.3 还可以直接用 onboard 命令也可以通过openclaw onboard --auth-choice ollama来启用集成。# 先安装 OpenClawnpminstall-gopenclaw/cli# 然后在 onboard 向导中选择 Ollamaopenclaw onboard# → 在 Provider 选择界面选 Local model (Ollama)ollama launch openclawvs 手动配置如果你只是想快速跑起来用 launch 就够了。如果你需要精确控制模型参数、多模型路由、自定义上下文窗口请看下面的手动配置方式。7. 方式二手动配置 openclaw.json完全控制这是我更推荐的方式因为它让你完全理解每个配置项的含义出了问题也知道从哪里排查。7.1 配置文件位置# OpenClaw 配置文件路径~/.openclaw/openclaw.json7.2 完整配置模板Qwen3.5:27b编辑~/.openclaw/openclaw.json{ // 模型配置 models: { providers: { ollama: { baseUrl: http://localhost:11434/v1, apiKey: ollama-local, // 必填但 Ollama 会忽略此值 api: openai-completions, // ⚠️ 必须用这个不要写 anthropic models: [ { id: qwen3.5:27b, // 必须和 ollama list 显示的名字完全一致 name: Qwen3.5 27B, reasoning: false, // ⚠️ 本地模型建议设为 false input: [text], cost: { // 本地运行全部为零 input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 131072, // 128K需要足够显存支撑 maxTokens: 8192 } ] } } }, // Agent 默认设置 agents: { defaults: { model: { primary: ollama/qwen3.5:27b // 格式provider名/模型id }, maxConcurrent: 4, subagents: { maxConcurrent: 8 } } }, // 工具配置隐私优先 tools: { web: { search: { enabled: false // 禁用搜索不发出任何外部请求 }, fetch: { enabled: true // 保留有限的资源获取能力 } } } }通过将 primary model 设为ollama/qwen3.5:27b每个 Agent 任务——包括解释 Prompt、生成摘要、推理数据——都会自动路由到本地 Ollama 模型无需任何外部 API 调用。工具配置中禁用了网页搜索以确保隐私和防止外发请求。7.3 配置中的关键字段解释字段值为什么apiopenai-completions对于 Ollama及其他非 OpenAI Provider必须使用openai-completionsapiKeyollama-local必填字段但 Ollama 实际上会忽略此值reasoningfalseQwen3.5 模型在reasoning: false下处理 OpenClaw 工具调用更可靠contextWindow131072Qwen3.5 模型 128K 是 24GB 显存硬件上的安全默认值cost全部0由于模型在本地运行所有成本值都设为零model.primaryollama/qwen3.5:27bprovider名/模型id格式provider 名对应 providers 下的键名7.4 兼容性字段部分模型需要对于非标准 ProvidersupportsDeveloperRole会自动检测为 false。但 Ollama 未被明确列入 isNonStandard 检查中所以 compat 值有时需要显式设置。如果你遇到系统 Prompt 不加载等奇怪问题试试添加compat字段{ id: qwen3.5:27b, reasoning: false, contextWindow: 131072, maxTokens: 8192, compat: { supportsDeveloperRole: false, supportsReasoningEffort: false } }7.5 验证配置# 检查 Ollama 正在运行curlhttp://localhost:11434/api/tags# → 应返回包含你模型的 JSON# 确认模型名称与配置一致ollama list# NAME ID SIZE MODIFIED# qwen3.5:27b abc123... 17 GB 2 hours ago# 检查 OpenClaw 配置openclaw doctor⚠️模型名称必须与你实际拉取的完全一致。运行ollama list查看可用模型的准确名称。8. 上下文窗口本地模型最大的坑这是本地部署中最容易踩的坑值得专门拿出来讲。问题是什么OpenClaw 默认的上下文窗口可能很小约 8K这甚至无法处理 OpenClaw 自己的 .md 指令文件。建议运行至少 32K token 上下文长度的模型。更多信息请参阅 Ollama 的上下文长度文档。不同显存下的建议显存建议 contextWindow说明8 GB8192-16384刚够基本对话16 GB3276816GB 显存建议设为 32768 以避免质量下降24 GB131072(128K)Qwen3.5 模型 128K 是 24GB 硬件上的安全默认值48 GB262144(256K)可以处理大型代码库和长对话如何调整 Ollama 的上下文长度方法一在 Ollama 中创建自定义模型Modelfile# 创建 ModelfilecatModelfileEOF FROM qwen3.5:27b PARAMETER num_ctx 32768 EOF# 创建自定义模型ollama create qwen3.5-27b-32k-fModelfile# 在 openclaw.json 中使用新的模型名# id: qwen3.5-27b-32k方法二通过环境变量设置# 设置 Ollama 的默认上下文长度OLLAMA_NUM_CTX32768ollama serve方法三在 openclaw.json 的 contextWindow 字段中设置{ id: qwen3.5:27b, contextWindow: 32768 // OpenClaw 会据此管理上下文 }上下文窗口过小的典型症状Agent 忘记之前的对话内容系统 Prompt 不加载模型回复不像 OpenClaw Agent工具调用返回格式错误Context Compaction 频繁触发丢失关键信息9. 实战用本地模型让 Agent 分析私有数据这个模式特别适合私有数据分析、内部工具以及任何数据必须保留在设备上的工作流。9.1 场景分析本地 CSV 销售数据假设你有一个包含客户订单的 CSV 文件数据中有真实姓名、手机号、地址——绝对不能上传到云端。9.2 启动 Gateway# 终端 1确保 Ollama 在运行ollama serve# 终端 2启动 OpenClaw Gatewayopenclaw gateway--forceGateway 作为系统的执行层处理 Agent 请求、加载工作区 Skill、调用本地工具并将推理调用路由到 Ollama 模型。9.3 与 Agent 对话你分析 ~/data/sales_2025.csv告诉我哪个月销售最好哪个产品利润最高生成一个摘要报告保存到 ~/reports/ Agent本地 Qwen3.5 推理 [调用 exec 工具] head -n 5 ~/data/sales_2025.csv [读取文件] 分析 CSV 结构... [调用 exec 工具] python3 analyze.py ~/data/sales_2025.csv 分析完成 - 销售最好的月份11月双十一效应总额 ¥2,847,000 - 利润最高的产品智能手表 Pro毛利率 42.3% - 报告已保存到 ~/reports/sales_summary_2025.md 整个过程中没有任何数据离开你的机器一个用户请求可以触发多步骤工作流而不仅仅是单次文本回复。9.4 实战效果对比OpenClaw 调用文件系统 Skill 遍历目录 → Ollama 读取代码并进行逻辑推理 → OpenClaw 组织推理结果并写入新文件。这比把代码片段复制到 ChatGPT 效率高得多而且数据永远不会离开本地机器。10. 调优技巧让本地模型不再啰嗦本地模型有一个通病太啰嗦。它们喜欢过度解释、输出原始 JSON、描述工具而不是直接使用工具。10.1 在 SOUL.md 中添加简洁规则本地模型经常过度解释并且喜欢输出 JSON。你可以在 SOUL.md 和模型系统 Prompt 两个地方进行调整。在你的项目根目录或~/.openclaw/下创建SOUL.md## 简洁规则保持简洁。不要输出 Skill 文档原文。不要打印原始 JSON 响应。不要详细解释你将要做什么。任务成功后用一句话确认即可。这不会让每个模型都变得简洁但效果比很多人预期的要好。10.2 通过 Modelfile 烘烤行为有些模型会描述工具而不是直接使用它们或者每个操作都要请求许可。自定义 Ollama Modelfile 可以将直接使用工具的行为烘焙进模型。catModelfileEOF FROM qwen3.5:27b PARAMETER num_ctx 32768 SYSTEM 你是一个高效的助手。 - 直接执行任务不要先解释你要做什么 - 使用工具时直接调用不要描述工具 - 完成后用一句话总结结果 - 不要输出原始 JSON EOFollama create qwen3.5-27b-agent-fModelfile10.3 速度优化如果你在 27B 模型上获得低于 20 tok/s 的速度检查是否有其他进程在使用 GPU。关闭任何运行 WebGL 或视频的浏览器标签页。在 Mac 上活动监视器 → GPU 历史记录会显示什么在竞争统一内存。11. 混合架构本地云端鱼和熊掌兼得我的实际建议很简单使用混合设置。让本地处理低成本任务让云端模型处理需要深度思考的部分和长文写作。OpenClaw 支持 per-agent 和 per-task 路由你不会被锁定在单一 Provider。11.1 三级模型路由配置// ~/.openclaw/openclaw.json — 混合架构 { models: { providers: { // 云端处理复杂任务 anthropic: { apiKey: ${ANTHROPIC_API_KEY}, models: [ { id: claude-sonnet-4-20250514, reasoning: true, contextWindow: 200000, maxTokens: 8192 } ] }, // 本地处理日常任务 ollama: { baseUrl: http://localhost:11434/v1, apiKey: ollama-local, api: openai-completions, models: [ { id: qwen3.5:27b, reasoning: false, contextWindow: 131072, maxTokens: 8192, cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 } } ] } } }, agents: { defaults: { model: { primary: ollama/qwen3.5:27b // 日常用本地免费 // 需要高质量时手动切换到 anthropic/claude-sonnet-4-20250514 } } } }11.2 什么时候用本地什么时候用云端┌───────────────────────────────────────────────────────┐ │ 任务路由决策 │ │ │ │ 本地 Ollama免费隐私 │ │ ├── 日志清理和摘要 │ │ ├── JSON 格式化 │ │ ├── 消息路由 │ │ ├── 简单代码生成CRUD、脚手架 │ │ ├── 文件操作和简单重构 │ │ ├── 包含敏感数据的任务客户信息、财务数据 │ │ └── 定时任务每日报告等不想按 token 付费 │ │ │ │ ☁️ 云端 Claude/GPT质量优先 │ │ ├── 复杂架构设计 │ │ ├── 多文件大型重构 │ │ ├── 复杂 Bug 调试 │ │ ├── 长文写作和深度分析 │ │ └── 需要最新知识的任务 │ └───────────────────────────────────────────────────────┘ 保留一个本地 Ollama 模型作为终极后备应对离线工作和云端宕机的情况。12. 常见问题排查问题 1Ollama 没有运行# 检查 Ollama 是否在运行curlhttp://localhost:11434/api/tags# 如果没有运行手动启动ollama serve# 如果是远程机器需要绑定到所有接口OLLAMA_HOST0.0.0.0 ollama serve问题 2API Key 错误如果看到No API key found for provider ollama错误需要通过openclaw agents add配置 Agent 的认证。确保openclaw.json中有apiKey: ollama-local字段。问题 3工具调用失败模型输出 JSON 而不是调用工具工具调用失败时在模型配置中设置reasoning: false并优先使用 Qwen3.5 模型。如果工具调用仍然出问题将 Ollama 更新到最新版本。官方 Provider 集成修复了多个边缘情况。# 更新 Ollama 到最新版curl-fsSLhttps://ollama.com/install.sh|sh问题 4模型回复不像 OpenClaw Agent不使用工具自称是通用 AI这通常是因为系统 Prompt 没有在冷启动时加载。模式表现为工具调用正常但系统 Prompt 不加载。解决方案添加compat字段compat: { supportsDeveloperRole: false, supportsReasoningEffort: false }问题 5Memory 搜索返回不相关结果如果 memory_search 返回无关结果原因可能是 memory 目录下有旧数据embedding 索引是基于过期数据构建的。# 删除旧的 memory 文件rm~/.openclaw/workspace-{agent}/memory/旧日期.mdrm~/.openclaw/memory/{agent}.sqlite# SQLite 索引会自动从现有 memory 文件重建问题 6速度太慢# 检查是否有其他进程占用 GPUnvidia-smi# NVIDIA GPU# 或 Mac: 活动监视器 → GPU 历史记录# 试试更小的模型ollama pull qwen3.5:35b-a3b# MoE速度快很多# 减小上下文窗口# contextWindow: 32768 而不是 131072问题 7ollama launch报 unknown command如果看到Error: unknown command launch for ollama说明 Ollama 版本太旧更新后即可正常使用。# 更新 Ollamacurl-fsSLhttps://ollama.com/install.sh|sh 速查卡一页纸看完所有配置# 安装 curl-fsSLhttps://ollama.com/install.sh|sh# 安装 Ollamanpminstall-gopenclaw/cli# 安装 OpenClawollama pull qwen3.5:27b# 拉取模型# 一键启动最快方式 ollama launch openclaw# 自动配置并启动# 或手动配置完全控制 # 编辑 ~/.openclaw/openclaw.json# 参考本文第 7 节的完整配置模板# 验证 ollama list# 确认模型名称curlhttp://localhost:11434/api/tags# 确认 Ollama 运行中openclaw doctor# 检查 OpenClaw 配置# 调试 ollama serve# 手动启动 Ollamaopenclaw gateway--force# 强制启动 Gateway# 自定义模型上下文窗口 echoFROM qwen3.5:27b\nPARAMETER num_ctx 32768Modelfile ollama create qwen-32k-fModelfile// 最小可用配置 // ~/.openclaw/openclaw.json { models: { providers: { ollama: { baseUrl: http://localhost:11434/v1, apiKey: ollama-local, api: openai-completions, models: [{ id: qwen3.5:27b, // ← 改成你的模型名 reasoning: false, contextWindow: 32768, // ← 根据显存调整 maxTokens: 8192, cost: {input:0,output:0,cacheRead:0,cacheWrite:0} }] } } }, agents: { defaults: { model: { primary: ollama/qwen3.5:27b } } } } 参考资料Ollama 官方 OpenClaw 集成文档Ollama 官方博客OpenClawOpenClaw Ollama Provider 配置文档Qwen3.5 模型系列 — Ollama 库Qwen3.5 HuggingFace 模型页OpenClaw 本地部署指南haimaker.ai — 2026 年 OpenClaw 最佳本地模型排行DataCamp — OpenClaw Ollama 构建本地数据分析师如果觉得有帮助欢迎点赞收藏 ⭐ 关注有问题评论区见本文为原创内容转载请注明出处。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2430697.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！