本地大模型系列：2.通过API让本地大模型为你服务

news2026/3/22 2:16:24

上一篇我们介绍了ollama和lmstudio这两个工具都是个人版的运行大模型的工具可以用来运行本地小参数的LLM所谓小参数一般指不超过27B的4bit量化LLM按照1B参与大约需要0.7G显存加载进行预测加上其他开销月1-1.5G可以估算自己自己的设备可以跑多大的参数【知识】关于4bit量化模型4bit量化大模型的定义4bit量化大模型是指通过降低模型参数的数值精度从常见的32位浮点数或16位浮点数量化为4位整数以减少模型存储空间和计算资源占用的大型神经网络模型。量化技术通过牺牲少量精度换取显著的效率提升适用于资源受限的场景。量化技术的核心原理位宽缩减将原始高精度参数如FP32映射到4位整数通常为-8到7的整数值通过缩放因子scale和零点偏移zero-point保留数值分布特征。对称与非对称量化对称量化以零点为中心非对称量化允许偏移以适配数据分布。分组量化Group-wise对参数矩阵分块量化每组独立计算缩放因子减少精度损失。4bit量化的优势存储节省模型体积减少至原FP32模型的1/84bit vs 32bit。计算加速低比特运算如INT4在支持硬件如GPU张量核上提升推理速度。能耗降低适合边缘设备部署减少内存带宽和功耗需求。典型应用场景移动端推理手机、IoT设备部署大模型如Llama 2-4bit。多模型并行服务器同时加载多个量化模型优化资源利用率。实时系统低延迟要求的场景如语音识别、实时翻译。4bit量化技术正成为平衡效率与性能的关键手段相关工具链如Bitsandbytes、GGML已集成到主流框架PyTorch、TensorFlow中。通常来说我们需要的是大模型的能力而不是用ollama或者lmstudio界面搞一下娱乐而是要把大模型能力嵌入到我们的应用程序中去。当然我们也可以选择远端的API能力如火山引擎、阿里千问、Deepseek等但远端是要花钱的而且依赖于网络。本地的就消耗电费而且可以单机运行在本地LLM的技术参数已经完全满足应用时本地也是不错的选择。这里采用chatbox来配置接口配置示例这里配置通过的参数可以翻到应用程序里直接使用后面会给一个调用的示例。chatbox安装在 https://chatboxai.app/zh 官网下载适合你的客户端安装后运行如下1.ollama接口配置打开ollama程序找到其图标点出其菜单选择 Settings打开上述开关这样其他应用就可以调用ollama服务了PS这里的Model location是模型下载存放的目录一定不能选择C盘否则会变成Disk C Soldier俗称C盘战士。可以百度一下如何迁移已经下载好的模型就是复制到目标位置然后将目录设置为目标位置即可此时打开浏览器在窗口输入http://localhost:11434/能看到这个说明ollama已经启动并可以提供对外服务。然后操作chatbox在下图2的位置填入 http://localhost:11434/ 或者 http://1270.0.1:11434/ (一般来说等效其实有点小区别感兴趣自己百度然后点击获取此时可以加载出本地ollama所有的模型点击绿色的加号图标选择你需要使用的模型然后就能看到这个模型被加载出来了。接下来打开默认模型选择一个省得我们每次都要手动选关闭设置窗口打开一个新会话是不是这里已经显示你刚才选择的默认模型了也可以自己手动选现在来说句话试试。、第一次启动会话模型会加载需要一点时间跟电脑性能有关加载完成之后第二次就可以直接用速度要快很多了。在cmd里运行 ollama ps可以看到当前已经加载的模型可以显示思考模式使用trae写个简单的代码来对接ollama注意这里需要明确ollama用哪个模型注意qwen3.5:latest可以缩写为qwen3.5但是后面有参数的如qwen3.5:2B要写全称AI生成的代码如下import requests import json def test_ollama_connection(): # Ollama服务器地址 base_url http://localhost:11434 model qwen3.5 # 测试连接 - 获取模型列表 print(测试连接到Ollama服务器...) try: response requests.get(f{base_url}/api/tags) response.raise_for_status() models response.json().get(models, []) print(f成功连接到Ollama服务器) print(f可用模型数量: {len(models)}) # 检查指定模型是否可用 model_available any(m.get(name, ).startswith(model) for m in models) if model_available: print(f模型 {model} 可用) else: print(f模型 {model} 不可用可用模型列表:) for m in models: print(f - {m.get(name)}) except requests.exceptions.RequestException as e: print(f连接失败: {e}) return False # 测试模型生成 print(\n测试模型生成能力...) try: payload { model: model, prompt: Hello, what can you do?, stream: False } response requests.post(f{base_url}/api/generate, jsonpayload) response.raise_for_status() result response.json() print(f生成成功) print(f响应: {result.get(response, No response)[:100]}...) return True except requests.exceptions.RequestException as e: print(f生成测试失败: {e}) return False if __name__ __main__: test_ollama_connection()连接成功现在你可以使用trae利用ollama的api开发本地app了。qwen3.5是多模态模型可以支持图片和文字同时上传的具体让trae帮你写代码就好。ollama有个默认的设置就是如果5分钟没有接口访问已经激活的模型这个模型就会从内存中卸载下次使用就要重新载入。你需要修改一个“OLLAMA_KEEP_ALIVE”的设置具体如何操作自行百度这个值默认为52.lmstudio api连接打开lmstudio点击图中位置图中LocalServer处打开箭头所示开关然后点击LoadModel加载模型就可以对外提供服务了图中的ip地址就是lmstudio 的api地址点击加载和ollama用的时候才加载不同lmstudio可以先加载也可以使用时被动加载并且不会自动释放现在回到chatbox填写api主机然后点击获取这次我们不设置默认模型而是直接在聊天界面中切换思考了很久这里也是注意在本地的小参数模型速度还不快的时候不要让他回答一些开放性问题最好是具体的问题这样不用等着对面回复等很久。lmstudio这边是可以看到一直在输出的。trae对接代码如下import requests import json def test_lmstudio_connection(): # LM Studio服务器地址 base_url http://127.0.0.1:1234 model qwen3.5-9b-mlx # 测试连接 - 检查服务器状态 print(测试连接到LM Studio服务器...) try: # LM Studio使用类似OpenAI的API格式 response requests.get(f{base_url}/v1/models) response.raise_for_status() models response.json().get(data, []) print(f成功连接到LM Studio服务器) print(f可用模型数量: {len(models)}) # 检查指定模型是否可用 model_available any(m.get(id, ) model for m in models) if model_available: print(f模型 {model} 可用) else: print(f模型 {model} 不可用可用模型列表:) for m in models: print(f - {m.get(id)}) except requests.exceptions.RequestException as e: print(f连接失败: {e}) return False # 测试模型生成 print(\n测试模型生成能力...) try: # LM Studio使用OpenAI兼容的API格式 payload { model: model, prompt: Hello, what can you do?, max_tokens: 100, temperature: 0.7 } response requests.post(f{base_url}/v1/completions, jsonpayload) response.raise_for_status() result response.json() print(f生成成功) print(f响应: {result.get(choices, [{}])[0].get(text, No response)[:100]}...) return True except requests.exceptions.RequestException as e: print(f生成测试失败: {e}) return False if __name__ __main__: test_lmstudio_connection()注意访问ollama和访问lmstudio的代码是不一样的这一点不用我们操心trae可以做很好结语至此我们已经介绍了ollama和lmstudio的接口使用方式这为我们开发单机版的app打下基础。当然单机版的api可以轻松替换为远端付费大模型的api修改一下调用方式即可。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2431740.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！