win10 本地部署ollama + qwen3.5：0.8b

news2026/3/23 9:13:09

尝试本地部署一个资源要求小的模型完成一些简单的本地调用任务。硬件是一个minibox电脑成本在3k以内。amd R7 自带的核显尝试一下性能如何。如果足够稳定可以部署一些没有时效性要求的agent。24小时运行美滋滋。cpu amd R7 7840HSgpu 780M内存16gb 核显分配3GB操作系统win10安装1下载最新版本的ollama安装老版本的ollama 在pull qwen3.5的时候会报错。ollama2拉取模型在cmd 窗口下执行ollama pull qwen3.5:0.8b3运行模型哦ollama run qwen3.5:0.8b关闭思考提高响应速度/set nothink模型对系统资源要求是特别低只使用cpu的情况下cpu使用率70%内存2GB以内使用python调用api遇到了第一个问题。响应时间在100秒左右这个有点问题应该是哪里没有设置好。尝试解决1设置模型常驻内存。让qwen3.5:0.8b模型常驻内存需要设置OLLAMA_KEEP_ALIVE环境变量。默认情况下模型在处理完请求后只会保留 5 分钟就会被卸载设置后可以让它一直留在显存里下次调用时就能瞬间响应。方法一临时设置测试用在启动 Ollama 服务的命令行窗口中设置cmdset OLLAMA_KEEP_ALIVE-1 ollama serve参数说明-1表示永久常驻直到服务关闭也可以设置具体时间如24h表示 24 小时30m表示 30 分钟。验证这个办法效果明显在70秒内响应。添加到系统环境变量重启后永久生效修改环境变量点击确定保存重启电脑继续优化关闭模型思考功能相应时间在50秒以内已经到达可接受的范围。继续压榨硬件性能现在只是使用CPU算力还没有使用到核显的GPU想办法利用GPU算力。https://zhuanlan.zhihu.com/p/32548573553这上面是一个ollama使用780M的方法。文章写的不是很好我看了半天。就是安装了两个软件下载对应的补丁解压后覆盖就完事了。AMD HIP SDK 这个是6.4.2OLLAMA 这个是0.18.2配置好之后下面这步很重要。让ollama能够发现780M在启动 Ollama 前正确设置环境变量在同一个 PowerShell 窗口中按顺序执行powershell# 1. 停止所有 Ollama 进程 taskkill /F /IM ollama.exe 2$null taskkill /F /IM ollama-app.exe 2$null # 2. 设置环境变量关键 # 强制启用 GPU $env:HSA_OVERRIDE_GFX_VERSION 11.0.2 $env:OLLAMA_GPU_LAYERS 25 $env:OLLAMA_VULKAN 1 # 模型常驻内存避免冷启动 $env:OLLAMA_KEEP_ALIVE -1 # 3. 验证环境变量已设置 Write-Host HSA_OVERRIDE_GFX_VERSION $env:HSA_OVERRIDE_GFX_VERSION Write-Host OLLAMA_VULKAN $env:OLLAMA_VULKAN # 4. 启动 Ollama ollama serveGPU设置完成模型使用GPU内存参与后模型完全加载到显存中代码中继续优化# 初始化模型 chat ChatOllama( modelqwen3.5:0.8b, reasoningFalse, # 关闭冗长的思考链 temperature0.3, # 降低随机性提高确定性 num_predict1024, # 限制输出长度 num_ctx4096, # 上下文长度适中 top_k20, # 减少采样范围加快生成 base_urlhttp://127.0.0.1:11434 )响应时间继续压缩

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2439938.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！