Ollama在Apple Silicon上预览，性能大提升

news2026/4/1 21:40:34

2026年3月30日Ollama开启在Apple silicon上的预览由苹果MLX框架支持解锁新性能加速繁重工作还在多方面有显著改进。MLX驱动性能飞升基于Apple silicon的Ollama构建在MLX框架上利用统一内存架构。在M5等芯片上加速首词响应和生成速度。测试显示Ollama 0.19预填充和解码性能远超0.18版本。如预填充0 - 2000词元/秒0.19版达18100.18版仅1154。NVFP4支持结果一致Ollama利用NVFP4格式减少推理工作负载的内存带宽和存储需求保持模型准确性。随着更多推理提供商使用该格式用户能获得与生产环境相同结果还能运行经NVIDIA优化的模型。缓存升级响应更快Ollama缓存升级降低内存利用率在对话间重用缓存设置智能检查点减少提示处理时间采用更智能淘汰机制保留共享前缀。这些改进让编码和代理任务更高效。开始使用与未来规划可下载Ollama 0.19预览版加速新的Qwen3.5 - 35B - A3B模型。使用时Mac需超32GB统一内存。未来Ollama将支持更多模型引入更简单方法导入自定义模型扩展支持架构列表。致谢相关团队Ollama感谢MLX贡献者团队、NVIDIA贡献者、GGML与llama.cpp团队、阿里巴巴Qwen团队他们在框架构建、量化优化、模型开源等方面做出了贡献。编辑观点Ollama此次在Apple silicon上的预览是一次重大突破性能提升显著。未来支持更多模型和架构有望在本地AI领域占据重要地位推动行业发展。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2473283.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！