分片 vs 分布式:弹性与高可用性背后的数学原理

news2026/4/29 11:30:03
分片 vs. 分布式弹性与高可用性背后的数学原理Chris SmithJuly 14, 2025原文链接概率论Probability theory是数学中研究不确定性的分支。它帮助我们理解不同结果发生的可能性。在本文中我们将考虑两种水平扩展数据库的替代架构方案并运用概率论来评估每种架构对潜在故障的弹性resilience。垂直 vs. 水平数据库架构选项垂直扩展Vertical scaling涉及增加单台服务器的资源以提升其处理能力。这意味着为现有服务器添加更多 CPU、内存或存储资源。这种扩展方式受到单台服务器物理限制的影响并且在连接数、每秒事务数transactions per second和存储方面有着明确的上限。水平扩展Horizontal scalability涉及将工作负载分散到多台服务器上。这种方法允许向系统中添加额外的服务器提供了一条超越单台服务器能力的可扩展路径。水平数据库扩展架构选项本文考虑的两种水平扩展架构是应用层分片Application-Level Sharding和分布式 SQLDistributed SQL。应用层分片应用层分片是一种水平扩展策略它利用特定领域的知识将数据分区到运行在多台服务器上的多个数据库实例中。每个数据库实例都是隔离的使工作负载能够被扩展。这种架构需要自定义逻辑来处理路由、重新平衡和跨分片操作。分布式 SQL分布式 SQLDistributed SQL数据库如 YugabyteDB提供了一个单一的逻辑数据库可跨多台服务器水平扩展并具有内置的复制和基于法定人数quorum-based的逻辑来实现全局 ACID 事务。可以添加额外的服务器并集成到系统中从而扩展工作负载。自动路由、重新平衡和跨分片操作的处理简化了开发并加快了上市时间。但**高可用性high availability和弹性resilience**又如何呢这两种水平可扩展架构的正常运行时间特性如何比较在本次比较中我们假设两种架构都在 Google Cloud Platform 上运行使用作为 Compute Engine Service 一部分托管的 VM虚拟机。Google Cloud Platform 为单个 VM/实例提供 99.9% 的月度正常运行时间服务级别目标Service Level Objective, SLO。我们将在系统可用性计算中使用此 SLO详见https://cloud.google.com/compute/sla?hlen架构 1 – 应用层分片什么是应用层分片应用分片系统将数据分区到多台服务器上这些服务器随后半独立地运行。数据在服务器之间手动分区——例如客户 A–F 在服务器 1 上G–L 在服务器 2 上等等。每台服务器仅负责其数据切片。应用程序必须将查询路由到正确的服务器。如果一台服务器发生故障其数据将变得不可用即使其他服务器是健康的。该架构由多台独立运行的数据库服务器并行组成。每台服务器保留与底层单体架构相同的计算资源需求配置。6 节点应用层分片系统的可用性假设我们有 6 个数据库节点每个节点都在 GCP 中自己的虚拟机实例上运行。GCP 为每个 VM 提供 99.9% 的服务级别目标。我们知道节点可用的概率P(节点可用) 0.999节点彼此独立系统需要所有 6 个节点都可用在概率论中独立事件是指其结果互不影响的事件。例如当投掷四个骰子时每个骰子上显示的数字与其他三个骰子无关。类似地在 4 节点应用分片集群中每台服务器的可用性独立于其他服务器。这意味着每台服务器都有各自可用或不可用的概率一台服务器的故障不受集群中其他服务器故障与否的影响。实际上可能存在共享资源或共享基础设施将一台服务器的可用性与另一台服务器联系起来。用数学术语来说这意味着事件是相关的。然而我们认为这类故障的概率较低因此在本分析中不予考虑。从数学上讲如果两个事件 A 和 B 是独立的那么 A 和 B 同时发生的概率是它们各自概率的乘积P(A 和 B) P(A)*P(B)以骰子为例投掷一个骰子得到 6 的概率是1/6 0.16667。同时投掷出六个 6 的概率是(1/6)^6 0.00002回到我们的 6 节点数据库集群P(所有 6 个节点可用) P(1 个节点可用)^6 0.999^6 0.99401因此6 节点分片架构支持 99.4% 的服务级别目标这明显低于底层 VM 的 SLO。架构 2 – 分布式 SQL什么是分布式 SQL 集群分布式 SQL 数据库自动将单个逻辑数据库的数据分片到多台服务器上。此外为了弹性它为每个分片维护副本并通常使用基于法定人数的算法来协调更新确保读写操作的强一致性。每个数据分片在多个节点上复制其中一个副本被指定为 leader领导者。写入数据需要法定人数**多数**例如如果复制因子replication factor, RF为 3则需要 3 个中的 2 个。读取也需要法定人数这通过将请求路由到 leader 来优雅地实现避免了向所有 3 个副本发出读取并等待多数响应的需要。数据不绑定到单个节点。系统可以容忍节点故障并仍然提供服务请求。6 节点 RF3 分布式 SQL 集群的可用性假设我们有 6 个节点每个节点都在 GCP 中自己的虚拟机实例上运行。GCP 为每个 VM 提供 99.9% 的服务级别目标。每个节点管理一个或多个数据分片。每个分片都处于一个法定人数组中其数据复制到其他两个节点上假设复制因子RF为 3。为了防止可用区Availability Zone, AZ中断和单个节点故障集群通常分布在三个可用区中数据分布算法确保分片的副本始终放置在不同的可用区中。在概率论中二项分布binomial distribution对一系列试验或测试期间的预期结果数量进行建模。例如在投掷骰子时二项分布可用于计算投掷三个骰子时得到两个 6 的概率。我们知道掷出 6 的概率是1/6 0.16667。我们知道掷不出 6 的概率是5/6 0.83333。因此掷出两个 6 后跟一个非 6的概率是0.16667 * 0.16667 * 0.83333 0.02315 2.315%玩家可能以以下任意组合掷出一对 6掷出两个 6然后是一个非 6掷出一个 6一个非 6然后再一个 6掷出一个非 6然后是两个 6。3 种掷骰组合会产生一对 6。因此掷出一对 6 的概率是3 * 2.315% 6.944%计算二项分布的公式如下假设 p 是 1 次试验中成功的概率P(n 次试验中 k 次成功) n/k · p^k * (1-p)^(n-k)其中 n/k n 中选 k 的组合数 n!/(k!·(n-k)!)注意“n 中选 k 的组合是英国术语美国数学学生将其理解为n choose k”。因此计算投掷 3 个骰子时得到两个 6 的概率P(3 个骰子中两个 6) 3/2 · p^2 · (1-p) 3 · p · (1 – p) 3 * 0.16667^2 * 0.83333 0.06944回到我们的 6 节点数据库集群我们可以使用二项分布来计算 n 个节点的集群中 k 个服务器可用的概率。计算如下P(n 个服务器中 k 个可用) n/k · p^k * (1-p)^(n-k) 其中 n/k n!/(k!·(n-k)!)我们知道P(节点可用) 0.999节点彼此独立节点均匀分布在 3 个可用区中有许多法定人数组分布在服务器上Raft 组的组织方式确保副本始终位于不同的可用区中如果丢失 1 个节点只有 1 份数据副本受到影响因此集群保持可用如果丢失 2 个节点只要它们在同一 AZ 中只有 1 份数据副本受到影响因此集群保持可用。如果丢失 3 个或更多节点2 份或更多数据副本受到影响集群将变得不可用。换句话说6 节点系统在以下情况下可用所有 6 个节点都在线恰好 5 个节点在线恰好 4 个节点在线但两个下线的节点在同一 AZ 中。P(法定人数) P(6 个在线) P(5 个在线) P(4 个在线且 2 个下线在同一 AZ 中)在 6 节点集群中选择 4 个节点的组合加上 2 个不可用节点必须来自单个可用区的附加约束被称为约束组合集Constrained Combinatorial Sets。这是指从更大的组中选择项目但具有某些限制可能组合的规则或限制。这些约束可以基于元素之间的关系、资源限制或其他因素从而减少有效组合的数量。在我们的案例中我们只能从 1 个可用区中选择元素。通过在 6 节点集群中选择 4 个节点的具体案例我们有(6 选 4) 6!/4!(6-4)! 6!/(4!·2!) 720/(24·2) 15计算 6 节点集群中 4 个节点的组合加上另外 2 个节点必须来自单个可用区的附加约束在数学上较为复杂但直观地说另外 2 个节点在 AZ1、AZ2 或 AZ3 中因此有 3 种组合。所以我们有(6 约束选 4) 3我们将使用以下符号来描述约束组合集约束条件为未选择的项目来自 1 个 AZ(n 约束选 k) 表示在 RF3 配置中从 n 个中选择 k 个其中 (n – k) 个来自 1 个 AZ在 RF5 配置中来自 1 或 2 个 AZ。回到计算P(6 个在线) (6 约束选 6) · p^6 0.999^6 0.9940149800P(5 个在线) (6 约束选 5) · p^5 · (1-p) 6 · p^5 · (1 – p) 0.0059700599P(4 个在线) (6 约束选 4) · p^4 · (1-p)^2 3 · p^4 · (1-p)^2 0.0000029880P(法定人数) 0.9940149800 0.0059700599 0.0000029880 0.9999880279因此6 节点 RF3 基于法定人数的架构支持 99.998% 的服务级别目标这明显高于底层 VM 的 SLO。10 节点 RF5 分布式 SQL 集群的可用性假设我们有 10 个节点每个节点都在 GCP 中自己的虚拟机实例上运行。GCP 为每个 VM 提供 99.9% 的服务级别目标。每个节点管理一个或多个数据分片。每个分片都处于一个法定人数组中其数据复制到其他四个节点上假设复制因子RF为 5。为了防止可用区中断和单个节点故障集群通常分布在五个可用区中。数据分布算法确保分片的副本始终放置在不同的可用区中。我们知道P(节点可用) 0.999节点彼此独立节点均匀分布在 5 个可用区中有许多法定人数组分布在服务器上Raft 组的组织方式确保副本始终位于不同的可用区中如果丢失 1 个节点只有 1 份数据副本受到影响因此集群保持可用如果丢失 2 个节点只有 2 份数据副本受到影响因此集群保持可用如果丢失 3 个节点只要它们在 2 个或更少的 AZ 中只有 2 份数据副本受到影响因此集群保持可用。如果丢失 4 个节点只要它们在 2 个或更少的 AZ 中只有 2 份数据副本受到影响因此集群保持可用。如果丢失 5 个或更多节点3 份或更多数据副本受到影响集群将变得不可用。P(法定人数) P(10 个在线) P(9 个在线) P(8 个在线) P(7 个在线) P(6 个在线)以下所有组合都是约束组合集约束条件为未选择的项目来自两个或更少的可用区。P(10 个在线) (10 约束选 10) · p^10 · (1-p)^0 1 · p^10 · (1-p)^0 0.9900448802P(9 个在线) (10 约束选 9) · p^9 · (1-p)^1 10 · p^9 · (1-p)^1 0.0099103592P(8 个在线) (10 约束选 8) · p^8 · (1-p)^2 45 · p^8 · (1-p)^2 0.0000446413P(7 个在线) (10 约束选 7) · p^7 · (1-p)^3 40 · p^7 · (1-p)^3 0.0000000397P(6 个在线) (10 约束选 6) · p^6 · (1-p)^4 10 · p^6 · (1-p)^4 0.0000000000P(法定人数) 0.9999999204因此10 节点 RF5 基于法定人数的架构支持 99.999992% 的服务级别目标这显著高于 RF3 集群的 SLO。总结架构对可用性的影响传统架构受到单节点故障风险的限制。应用层分片加剧了这个问题因为如果一个节点宕机其分片以及整个系统将变得不可用。相比之下具有基于法定人数共识的分布式数据库如 YugabyteDB提供了容错能力和可扩展性从而实现更高的弹性和改进的可用性。直接比较架构服务级别目标单节点99.9%三个 96 节点应用层分片99.4%两个 96 节点 RF3 分布式 SQL 集群99.998%四个 910 节点 RF5 分布式 SQL 集群99.999992%七个 9宕机的业务影响数学概率可能是一个难以把握的概念。例如如果天气预报模型预测周三有 50% 的降雨概率这并不意味着半天都会下雨。然而如果预报说周四有 75% 的降雨概率该模型预测周三干燥的可能性是周四的两倍。我们计算如下P(周三干燥) 1 – P(周三降雨) 1 – 0.5 0.5P(周四干燥) 1 – P(周四降雨) 1 – 0.75 0.25周三与周四相比干燥的可能性 P(周三干燥) / P(周四干燥) 0.5 / 0.25 2上面的汇总表显示与 10 节点 RF5 分布式 SQL 集群相比使用 6 节点应用层分片架构时故障的可能性要大得多。具体而言6 节点应用分片与 10 节点 RF5 相比的故障可能性 (P(6 节点应用分片不可用)) / (P(10 节点 RF 不可用)) (100 – 99.4) / (100 – 99.999992) 75000弹性重要吗提供高吞吐量、实时交易服务的企业——如支付处理商和反洗钱anti-money laundering, AML平台——对其基础设施的弹性有着至关重要的依赖。每一分钟的宕机都是收入的损失。它会侵蚀信任并可能导致客户流失。例如一个每秒处理 10,000 笔交易、每笔 50 美元、收取 2% 费用的平台仅费用方面每分钟就会损失 600,000 美元的收入。Comply Advantage 的 CTP Mark Watson 表示该平台实时监控交易以检测欺诈和 AML 违规行为“一次 outage中断可能会让非法活动逃过检测为我们的客户带来监管风险可能产生数十万美元的连带责任。我们在严格的合同正常运行时间保证下运营因为一次中断可能触发罚款和立即的高层升级。”所以是的弹性很重要。这就是为什么运营弹性已经超越了在故障场景期间激活的有据可查的流程和 runbook运行手册现在通过分布式 SQL 等弹性自愈架构来解决。这就是 DORA《数字运营弹性法案》Digital Operational Resilience Act的目的该法案旨在通过确保企业能够承受、应对和从所有类型的技术中断和威胁中恢复来加强欧盟金融部门的数字弹性。结论传统架构特别是使用单节点或应用层分片的架构容易发生故障且可用性有限。相比之下具有基于法定人数复制的分布式 SQL 数据库如 YugabyteDB提供了显著更高的可用性、容错能力和弹性。这种差异不仅是技术性的更是业务关键性的宕机可能导致巨大的收入损失、声誉损害和监管风险。随着运营需求和监管期望的增加采用弹性自愈架构对于任何依赖高吞吐量、实时服务的企业来说都变得至关重要。阅读我们的新白皮书Architecting Apps for Ultra-Resilience with YugabyteDB了解更多关于超高弹性ultra-resilience的信息为什么它对现代应用程序至关重要以及 YugabyteDB 如何帮助您实现它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2561239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…