用Exo搭建本地800亿参数AI集群

news2026/3/29 14:48:26
在上一篇文章 *《我用16GB Mac Mini打造AI powerhouse——LM Studio Link如何改变一切》*中我探索了通过在强大的机器上使用LM Studio Link来在较小设备上运行AI模型的方法。如果我想反其道而行之——将多台机器的CPU、GPU和RAM资源整合起来运行单台机器无法处理的模型呢如果你手头有一堆较小的设备想要将它们的能力整合起来以发挥更大作用呢来认识Exo。这正是这个问题的答案。1、什么是ExoExo是由Exo Labs维护的一个开源项目。用一句话概括它将你的所有设备连接成一个个人AI集群让你可以运行那些永远无法装入任何单台机器的前沿模型。核心能力一览自动设备发现——运行Exo的设备会自动在网络上找到彼此无需手动配置。拓扑感知自动并行——Exo会根据每台设备可用的RAM、CPU/GPU资源以及节点间的网络延迟自动找出最优的模型分割方式。张量并行——模型分片可在2台设备上实现高达1.8倍加速在4台设备上实现3.2倍加速。Thunderbolt 5上的RDMA——在支持的硬件M4 Pro/Max上这可将设备间延迟降低高达99%。MLX后端——使用苹果的MLX框架在Apple Silicon上进行GPU加速推理。OpenAI兼容API——暴露http://localhost:52415/v1接口任何支持OpenAI的工具都可以直接与你的集群通信。支持54个以上模型——从小的Llama模型到671B参数的DeepSeek变体。适用于Mac、Linux甚至树莓派。我的配置Mac Mini M4 MacBook Pro M4 Max在这个实验中我组合了两台机器Mac Mini M4——16GB统一内存峰值使用55.1GB/64GB86%MacBook Pro M4 Max——64GB统一内存次要分区使用9.8GB/16GB61%合起来这个集群有足够的余量来加载Qwen3-Next-80B-A3B-Thinking-4bit——一个44GB的量化模型单台机器都无法轻松处理。该模型以稳定的每秒70到80个tokenTPS运行首次token时间TTFT根据查询复杂度约为4到11秒。温度方面Mac Mini在负载下峰值达到41到86摄氏度MacBook Pro保持在48到53摄氏度之间。2、安装设置对于macOSExo以原生应用形式提供DMG版本需要macOS Tahoe 26.2或更高版本从发布页面下载EXO-latest.dmg。复制到应用程序文件夹并启动。在同一网络的每台其他机器上重复此操作。完成——节点会自动发现彼此并显示在拓扑视图中。就这么简单。它真的能用。Linux和Windows设置Linux用户需要从源代码运行。首先安装依赖uvPython依赖管理器curl -LsSf https://astral.sh/uv/install.sh | shNode.js 18 和 npmRustnightlycurl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh rustup toolchain install nightly然后克隆并运行git clone https://github.com/exo-explore/exo cd exo/dashboard npm install npm run build cd .. uv run exo**一个重要注意事项**在Linux上Exo目前仅支持CPU。GPU支持正在积极开发中——如果你打算用NVIDIA或AMD GPU来实现这个功能值得关注。3、仪表板开箱即用的集群可见性运行后内置的Web仪表板在http://localhost:52415提供集群的实时拓扑视图。每个节点显示当前的CPU使用率、温度、功耗和内存利用率。你可以看到哪台设备正在处理模型的哪一部分——这就是拓扑感知自动并行引擎的实际运行。在下载之前它会显示组合后的RAM以及可以在你的AI集群中运行的模型。使用80GB64GB 16GBRAM可以运行的模型快照。下载并运行第一个提示后模型会根据每台机器的RAM被分层到两台机器上。Exo就绪聊天的快照。在推理过程中你可以看到Mac Mini的CPU飙升到97%温度达到86摄氏度功耗82瓦而MacBook Pro则以8-13%的负载平稳运行——Exo足够智能会根据可用资源分配工作负载。仪表板中的THINK模式支持思维链推理你可以在生成后展开或折叠它。Exo运行时的快照## 4、API开箱即用的OpenAI替代品Exo在http://localhost:52415/v1暴露一个完全兼容OpenAI的REST API。这意味着任何支持OpenAI SDK的工具、代理框架或应用都可以直接指向你的本地集群——无需修改代码。使用curl的快速示例curl -N -X POST http://localhost:52415/v1/chat/completions \ -H Content-Type: application/json \ -d { model: mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit, messages: [ {role: user, content: What is sky blue ?} ], stream: false }我们将收到如下所示的JSON输出。{id:887aab7d-c2e4-455d-bb7e-44d82b998bb1,object:chat.completion,created:1773493013,model:mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit,choices:[{index:0,message:{role:assistant,content:\n\n这是一个好问题根据上下文\sky blue\可以有两层含义\n\n### 1. **\Sky Blue\作为颜色名称** \n - 这指的是一种特定的**淡青色或浅蓝色**——就像晴朗白天的天空颜色。 \n - 在数字设计中它通常定义为 \n - **十六进制代码#87CEEB** \n - **RGB值(135, 206, 235)** \n - 它是艺术、时尚和设计中常用的颜色名称用来描述让人联想到万里无云天空的柔和、平静的蓝色。\n\n---\n\n### 2. **为什么真实的天空是蓝色的科学解释** \n这部分更有趣——也是这种颜色被*命名为*\天蓝色\的原因天空之所以呈现蓝色是由于一种称为**瑞利散射**的现象 \n\n- **阳光白光**太阳发出所有颜色的光红、橙、黄、绿、蓝、紫它们组合成\白光\。 \n- **地球大气层**当阳光进入我们的大气层时它会与气体分子氮气、氧气和微小颗粒碰撞。 \n- **按尺寸散射**较短的波长如**蓝色和紫色**比长波长红色、黄色更容易从这些分子散射。 \n - 蓝光的波长约为450-495纳米——足够小可以向各个方向散射。 \n - 紫光散射得更多但我们的眼睛对紫光不太敏感而且太阳本身发出的紫光也较少。因此**蓝色主导**了我们看到的效果。 \n- **结果**当你抬头看天空远离太阳时你看到来自四面八方的散射蓝光→天空呈现蓝色\n\n#### 为什么日落是红色/橙色 \n在日出/日落时阳光穿过*更多*大气层才能到达你的眼睛。大部分蓝光...这就是让Exo对开发者强大的原因。你可以将它接入代理AI应用、LangChain、LlamaIndex、你自己的代理流水线或任何OpenAI兼容的客户端。你的本地集群成为一个私有的推理端点。5、Thunderbolt 5上的RDMA下一个层次如果你有配备Thunderbolt 5的M4 Pro或M4 Max硬件Exo支持RDMA远程直接内存访问——这是macOS 26.2的新功能。据报道这可将节点间延迟降低高达99%实现通常与数据中心互连相关的性能。我无法在当前设置中测试这一点RDMA未启用的警告在我的截图中可见——我的机器使用WiFi而非Thunderbolt 5但Jeff Geerling的4×M3 Ultra Mac Studio集群的基准测试显示Qwen3-235B以生产级速度运行。这就是这个工具可以达到的上限。6、真实性能数据以下是我在测试查询中观察到的结果“天空为什么是蓝色的”——TTFT10,739毫秒TPS75.2个token/秒每token13.3毫秒“用Python写一个贪吃蛇游戏”——TTFT4,049毫秒TPS69.1个token/秒一般推理整个会话保持68-75 TPS对于一个完全在本地硬件上运行、零云成本的800亿参数思维模型来说这些数据确实令人印象深刻。THINK模式思维链推理如预期增加了TTFT但启用后模型质量明显更强。7、Exo vs. LM Studio Link何时使用哪个这两个工具解决相邻但不同的问题LM Studio Link——当你有一台强大的机器想从网络上的较弱设备访问它时使用。一个主机多个客户端。Exo——当你想将多台机器组合成单个虚拟GPU集群时使用。多个主机一个模型。如果你的目标是运行比任何单机支持的更大的模型——Exo是正确的工具。如果你的目标是方便和远程访问——LM Studio Link仍然很优秀。8、结束语Exo是我遇到的最实用的开源AI工具之一。入门门槛极低——尤其是在Mac上——而上限却极高。两年前在连接到同一WiFi网络的两台笔记本电脑上分布式运行一个具备思维能力的800亿参数模型听起来就像科幻小说。如果你正在构建代理AI系统、运行本地实验或者只是好奇你的硬件在协同工作时能做什么试试Exo吧。在Mac上设置只需要两分钟。其影响将让你忙碌更长时间。原文链接用Exo搭建本地800亿参数AI集群 - 汇智网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2424127.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…