深入解析 CAS 操作

news2025/7/28 5:30:41

在这里插入图片描述

一、CAS 的本质:硬件级别的乐观锁

CAS(Compare-And-Swap,比较并交换) 是一种原子操作指令,用于实现对共享变量的无锁并发修改。它是现代多核处理器支持的底层硬件指令,也是构建高效并发数据结构(如锁、队列、计数器)的核心基础。

核心原理
  1. 操作原子性:CAS 操作由硬件保证在执行过程中不会被线程调度打断
  2. 三步合一:将"读取-判断-写入"合并为单个原子操作
  3. 乐观锁机制:假设竞争很少发生,先操作后检测冲突
// CAS 伪代码表示
bool CAS(T* ptr, T expected, T new_value) {
    if (*ptr == expected) {   // 比较内存当前值
        *ptr = new_value;     // 交换新值
        return true;
    }
    return false;
}

二、工作流程详解

  1. 读取内存值:获取共享变量当前值 V
  2. 计算新值:基于 V 计算目标值 New
  3. 原子提交
    • 若内存值仍为 V ⇒ 写入 New
    • 若内存值已变化 ⇒ 放弃操作

三、关键优势:突破并发瓶颈

特性传统锁机制CAS 机制
线程阻塞可能发生等待无阻塞
死锁风险存在不存在
性能开销上下文切换代价高仅需单条CPU指令
并发粒度粗粒度细粒度

四、ABA 问题:隐藏的陷阱

问题场景
  1. 线程1读取值 A
  2. 线程2修改 A→B→A
  3. 线程1执行 CAS:检测值仍为 A ⇒ 操作成功

后果:数据看似未变,实际已发生中间状态变更

解决方案
  1. 版本号机制
    // Java AtomicStampedReference 实现
    AtomicStampedReference<String> ref = 
        new AtomicStampedReference<>("A", 0); // 初始版本0
        
    ref.compareAndSet("A", "B", 0, 1); // 同时验证值和版本号
    
  2. 时间戳标记:IBM zSeries 的 double-width CAS
  3. 垃圾回收指针:依赖GC防止内存重用(如.NET)

五、编程语言实现案例

Java 的 java.util.concurrent.atomic
// 原子整型自增实现
public final int getAndIncrement() {
    return unsafe.getAndAddInt(this, valueOffset, 1);
}

// Hotspot Unsafe 源码实现
public final int getAndAddInt(Object o, long offset, int delta) {
    int v;
    do {
        v = getIntVolatile(o, offset);   // 读取当前值
    } while (!compareAndSwapInt(o, offset, v, v + delta)); // CAS重试
    return v;
}
C++11 原子库
#include <atomic>
std::atomic<int> counter(0);

// CAS操作实现自增
int old_val = counter.load();
while (!counter.compare_exchange_weak(old_val, old_val + 1)) {
    // 优化:允许虚假失败,通常配合循环使用
}

六、典型应用场景

  1. 无锁计数器

    # Python ctypes 访问硬件CAS
    import ctypes
    libc = ctypes.cdll.LoadLibrary('libc.so.6')
    counter = ctypes.c_int(0)
    
    def atomic_increment():
        while True:
            old = counter.value
            if libc.__sync_val_compare_and_swap(
                ctypes.byref(counter), old, old+1) == old:
                break
    
  2. 无锁栈实现(Treiber Stack)

    class ConcurrentStack<T> {
        AtomicReference<Node<T>> top = new AtomicReference<>();
        
        void push(T item) {
            Node<T> newHead = new Node<>(item);
            Node<T> oldHead;
            do {
                oldHead = top.get();
                newHead.next = oldHead;
            } while (!top.compareAndSet(oldHead, newHead));
        }
        
        T pop() {
            Node<T> oldHead;
            Node<T> newHead;
            do {
                oldHead = top.get();
                if (oldHead == null) return null;
                newHead = oldHead.next;
            } while (!top.compareAndSet(oldHead, newHead));
            return oldHead.item;
        }
    }
    
  3. 无锁队列(Michael-Scott 队列)

    type Node struct {
        value interface{}
        next  *Node
    }
    
    type Queue struct {
        head *Node
        tail *Node
    }
    
    func (q *Queue) Enqueue(v interface{}) {
        node := &Node{value: v}
        for {
            last := q.tail
            next := last.next
            if last == q.tail { // 验证状态未变
                if next == nil {
                    if atomic.CompareAndSwapPointer(&last.next, nil, node) {
                        atomic.CompareAndSwapPointer(&q.tail, last, node)
                        return
                    }
                } else {
                    atomic.CompareAndSwapPointer(&q.tail, last, next)
                }
            }
        }
    }
    

七、底层硬件支持架构

处理器架构CAS 指令位宽支持
x86/x86-64CMPXCHG8/16/32/64位
ARMv8LDXR + STXR(LL/SC模型)64位
POWERlwarx + stwcx64位
RISC-Vlr.w + sc.w32/64/128位

LL/SC(Load-Link/Store-Conditional):现代RISC架构采用的替代实现方案

  1. Load-Link:标记内存区域
  2. 执行计算
  3. Store-Conditional:当标记区域未被修改时写入

八、性能优化策略

  1. 缓存行填充避免伪共享

    // C++ 缓存行对齐结构
    struct alignas(64) AtomicCounter {
        std::atomic<int> value;
        char padding[64 - sizeof(std::atomic<int>)];
    };
    
  2. 指数退避减少竞争

    while (!casSuccess) {
        int delay = random.nextInt(baseDelay);
        for (int i = 0; i < delay; i++) Thread.yield(); // 让出CPU
        baseDelay *= 2; // 指数级增加等待
    }
    
  3. 批量操作减少CAS调用

    // 批量增加计数器
    func (c *Counter) Add(n int) {
        const batchSize = 32
        for n > 0 {
            batch := n
            if batch > batchSize {
                batch = batchSize
            }
            // 单次CAS更新批量值
            c.accumulate(batch) 
            n -= batch
        }
    }
    

九、局限性及替代方案

  1. 循环开销问题:高竞争场景下自旋消耗CPU

    • 解决方案:java.util.concurrent.locks.LockSupport.park()
  2. 单一变量限制:无法原子修改多个独立变量

    • 替代方案:事务内存(Transactional Memory)
  3. 优先级颠倒风险:低优先级线程持有CAS导致高优先级饥饿

    • 实时系统解决方案:优先级继承协议
  4. 内存顺序约束

    // C++ 内存顺序控制
    counter.compare_exchange_weak(
        old_val, 
        new_val,
        std::memory_order_acq_rel,  // 成功时的内存序
        std::memory_order_acquire   // 失败时的内存序
    );
    

十、现代发展方向

  1. 128位 CAS 扩展:用于原子更新指针+元数据(如指针标记)

    bool __atomic_compare_exchange_16(
        void* ptr, 
        __int128* expected,
        __int128 desired
    );
    
  2. 持久内存 CAS:Intel Optane PMEM 的持久化原子操作

    bool pmemobj_atomic_compare_exchange(
        PMEMoid *ptr, 
        uint64_t *expected_oid,
        uint64_t desired_oid
    );
    
  3. GPU 原子操作:NVIDIA CUDA 的全局内存原子CAS

    int atomicCAS(int* address, int compare, int val);
    
  4. 分布式 CAS:跨多节点的分布式原子操作协议

    参与者 → 协调者:CAS请求
    协调者 → 所有节点:预提交
    节点响应符合条件 → 协调者:投票
    多数同意 → 协调者:提交指令
    

总结:CAS 的核心价值

CAS 操作通过硬件级原子指令,实现了:

  • 无锁并发:消除传统锁的开销
  • 非阻塞算法:提升系统响应能力
  • 细粒度同步:实现高性能并发数据结构

尽管存在 ABA 问题、高竞争场景性能下降等局限,但通过版本号机制、缓存优化等手段可有效缓解。作为现代并发编程的基石,CAS 在操作系统内核、数据库系统、中间件等高性能系统中发挥着不可替代的作用。理解其原理和最佳实践,是构建高性能并发系统的必备技能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404948.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3+TS+eslint9配置

记录eslint升级到9.x的版本之后遇到的坑 在 ESLint 9 中&#xff0c;配置方式发生了变化。Flat Config 格式&#xff08;eslint.config.js 或 .ts&#xff09;不再支持 extensions 选项。所以vscode编辑器中的 extensions 需要注释掉&#xff0c;要不然保存的时候不会格式化。…

【bug】Error: /undefinedfilename in (/tmp/ocrmypdf.io.9xfn1e3b/origin.pdf)

在使用ocrmypdf的时候&#xff0c;需要Ghostscript9.55及以上的版本&#xff0c;但是ubuntu自带为9.50 然后使用ocrmypdf报错了 sudo apt update sudo apt install ghostscript gs --version 9.50 #版本不够安装的版本为9.50不够&#xff0c;因此去官网https://ghostscript.c…

Redis :String类型

String类型 String是Redis中的字符串&#xff0c;是Redis中最基本的数据类型&#xff0c;直接是按照二进制数据的进行存储 Redis中的所有key都是String类型&#xff0c;但是value是有差别的 常见的命令 set 将String类型的value存储到key中&#xff0c;如果之间有相同的ke…

第18节 Node.js Web 模块

什么是 Web 服务器&#xff1f; Web服务器一般指网站服务器&#xff0c;是指驻留于因特网上某种类型计算机的程序。 Web服务器的基本功能就是提供Web信息浏览服务。它只需支持HTTP协议、HTML文档格式及URL&#xff0c;与客户端的网络浏览器配合。 大多数web服务器都支持服务…

网络爬虫一课一得

网页爬虫&#xff08;Web Crawler&#xff09;是一种自动化程序&#xff0c;通过模拟人类浏览行为&#xff0c;从互联网上抓取、解析和存储网页数据。其核心作用是高效获取并结构化网络信息&#xff0c;为后续分析和应用提供数据基础。以下是其详细作用和用途方向&#xff1a; …

LeetCode--24.两两交换链表中的结点

解题思路&#xff1a; 1.获取信息&#xff1a; 给了一个链表&#xff0c;要求两两一组地交换位置 限定条件&#xff1a;只能进行结点交换&#xff0c;不能修改结点内部的值 额外条件&#xff1a;结点数在0-100的范围&#xff0c;闭区间 2.分析题目&#xff1a;…

嵌入式SDK技术EasyRTC音视频实时通话助力即时通信社交/教育等多场景创新应用

一、引言​ 在数字化时代&#xff0c;即时通信已成为人们生活和工作中不可或缺的部分。音视频功能作为即时通信的核心&#xff0c;能实现更加直观、高效的信息传递。EasyRTC作为一款强大的实时通信框架&#xff0c;具备诸多优势&#xff0c;为即时通信的音视频应用提供了优质解…

IDEA集成JRebel插件,实现实时热部署

系列文章目录 文章目录 系列文章目录一、JRebel是什么&#xff1f;1.1、对比传统开发流程1.2、JRebel特性以及优势 二、IDEA集成JRebel三、IDEA以JRebel运行报错处理四、IDEA以JRebel运行演示实时热部署 一、JRebel是什么&#xff1f; JRebel 是一款针对 Java 开发的热部署工具…

1-3 Linux-虚拟机(2025.6.7学习篇- mac版本)

1、VMware Fusion下载 在windows系统中使用的VMwareWorkStation未提供Mac版&#xff0c;Mac系统可以使用VMwareFusionPro FusionPro和WorkstationPro均是VMware公司出品&#xff0c;完全兼容&#xff0c;体验基本是一致的。 下载地址&#xff1a;https://www.vmware.com/cn/pro…

如何打造一款金融推理工具Financial Reasoning Workflow:WebUI+Ollama+Fin-R1+MCP/RAG

在之前的文章中&#xff0c;我探讨了如何使用具身人工智能&#xff0c;让大语言模型智能体来模仿[当今著名对冲基金经理的投资策略]。 在本文中&#xff0c;我将探讨另一种方法&#xff0c;该方法结合了经过金融推理训练的特定大语言模型&#xff08;LLM&#xff09;&#xff0…

【试卷篇】Spring面试试卷题

一、选择题 1. 下面关于AOP的说法错误的是&#xff08; C&#xff09;。 A&#xff0e;AOP将散落在系统中的“方面”代码集中实现 B&#xff0e;AOP有助于提高系统的可维护性 C&#xff0e;AOP已经表现出了将要替代面向对象的趋势 D&#xff0e;AOP是一种设计模式&#xff0c…

通过阿里云 DashScope API 调用通义千问

获取API Key 百炼控制台https://bailian.console.aliyun.com/?tabmodel#/api-key 步骤 1&#xff1a;安装 DashScope SDK pip install dashscope 步骤 2&#xff1a;LangChain 调用 from langchain_community.llms import Tongyi# 设置阿里云 API Key&#xff08;从环境变…

大故障:阿里云核心域名爆炸了

大故障&#xff1a;阿里云核心域名被拖走了 今天早上许多群里出现网站故障的讨论&#xff0c;比如 cnblogs 全国访问一片红&#xff0c;一看原来是阿里云又出故障了。 今天早上许多群里出现网站故障的讨论&#xff0c;比如 cnblogs 全国访问一片红&#xff0c;一看原来是阿里云…

解决Zotero翻译插件Zotero PDF Translate无法正常翻译

试了很多方法了&#xff0c;不管怎么样还是报错&#xff0c;找到最简单的解决办法&#xff0c;把翻译引擎改成CNJI学术翻译就可以了。 不能用的原因是google 翻译API 无法调用。

【Latex】Windows/Ubuntu 绘制 eps 矢量图通用方法(drawio),支持插入 Latex 数学公式

一直感觉 Visio 或者 PPT 中 Mathtype 对 latex 公式渲染效果不好&#xff0c;且在 Ubuntu 下的支持不好&#xff0c;最近重新调研发现一个好用的工具 drawio。 在线使用 https://app.diagrams.net/?srcabout 也有桌面版的应用&#xff0c;Windows 就下载 exe 安装器&#x…

rknn优化教程(一)

文章目录 1. 前述2. 优化思想2.1 实时帧率2.2 多线程处理2.2.1 排序2.2.2 批量处理2.2.3 队列 2.3 进一步优化 3. 代码 1. 前述 OK&#xff0c;铺垫了很久的rknn优化&#xff0c;终于开始写了。为什么要优化呢&#xff1f;当然是我们的使用遇到了瓶颈&#xff0c;要么使用的时…

uniapp Vue2 获取电量的独家方法:绕过官方插件限制

在使用 uniapp 进行跨平台应用开发时&#xff0c;获取设备电量信息是一个常见的需求。然而&#xff0c;uniapp 官方提供的uni.getBatteryInfo方法存在一定的局限性&#xff0c;它不仅需要下载插件&#xff0c;而且目前仅支持 Vue3&#xff0c;这让使用 Vue2 进行开发的开发者陷…

【统计方法】树模型,ensemble,bagging, boosting

决策树基础 回归树 理论上&#xff0c;决策区域可以有任何形状。• 然而&#xff0c;我们选择将预测空间划分为高维矩形或框&#xff0c;这是为了简单和易于解释结果预测模型 目标&#xff1a;将预测空间划分为矩形区域&#xff0c;最小化残差平方和&#xff08;RSS&#x…

【选配电脑】CPU核显工作机控制预算5000

【选配电脑】CPU核显工作机控制预算5000 1.背景2.配置及估价3.选配的说明 1.背景 不需要独立显卡&#xff0c;内存&#xff0c;硬盘尽量大&#xff1b; 预算控制到5000&#xff0c; 主板型号&#xff0c;电源功率支持后续添加独立显卡。 时间节点&#xff1a;2025.06.07 2.配…

Mysql 插入中文乱码

session范围 查看数据库编码&#xff1a; show variables like %char%; # MySQL 5.7 字符集强制配置 # 修复 character_set_databaselatin1 等问题 [mysqld] character-set-server utf8mb4 collation-server utf8mb4_unicode_ci init_connect SET NAMES utf8mb4[client] d…