C++ 正则表达式简介

news2025/5/25 20:46:23

1. 正则表达式简介

正则表达式(Regular Expression,简称Regex)是一种用于匹配和处理文本的强大工具。它通过特定的符号组合形成匹配规则,常用于表单验证、文本搜索与替换、数据清洗等场景。

C++11标准引入了 <regex> 头文件,提供了对正则表达式的支持。这使得C++程序员能够更加方便地处理字符串。

1.1. 基本组件

  • std::regex:表示一个正则表达式对象。
  • std::smatch:用于存储匹配结果(字符串的子串)。
  • std::regex_match:用于检查一个字符串是否完全匹配一个正则表达式。
  • std::regex_search:用于在字符串中搜索与正则表达式部分匹配的子串。
  • std::regex_replace:用于替换与正则表达式匹配的部分。

1.2. 常用元字符

元字符描述示例
.匹配除换行符外的任意单个字符。a.b 匹配 “acb”、“a1b” 等。
^匹配字符串的开头。^abc 匹配 “abc”。
$匹配字符串的结尾。abc$ 匹配 “abc”。
*匹配前面的元素零次或多次。a* 匹配 “a”、“aa”、“aaa” 等。
+匹配前面的元素一次或多次。a+ 匹配 “a”、“aa”、“aaa” 等。
?匹配前面的元素零次或一次。a? 匹配 “a” 或空字符串。
\d匹配一个数字 (等价于 [0-9] )。\d{2} 匹配两位数字。
\D匹配一个非数字字符。\D{2} 匹配两个非数字字符。
\w匹配一个单词字符 (字母、数字、下划线)。\w{2} 匹配两个单词字符。
\W匹配一个非单词字符。\W{2} 匹配两个非单词字符。
\s匹配一个空白字符 (空格、制表符、换行符等)。\s{2} 匹配两个空白字符。
\S匹配一个非空白字符。\S{2} 匹配两个非空白字符。
[abc]匹配方括号中的任意一个字符。[abc] 匹配 ‘a’、‘b’ 或 ‘c’。
[^abc]匹配不在方括号中的任意一个字符。[^abc] 匹配任何不是 ‘a’、‘b’ 或 ‘c’ 的字符。
(...)分组,用于捕获子串或应用量词到整个组。(abc)* 匹配零个或多个 “abc” 的序列。
{n}匹配前面的元素恰好 n 次。{3} 匹配恰好三个字符。
{n,}匹配前面的元素至少 n 次。{3,} 匹配至少三个字符。
{n,m}匹配前面的元素至少 n 次,但不超过 m 次。{3,5} 匹配至少三个且不超过五个字符。
``或操作。
\转义特殊字符。\. 匹配实际的点字符。

1.3. 注意事项

  1. 语法错误:正则表达式的语法本身可能导致运行时错误(std::regex_error),即使C++代码编译通过。
  2. 预编译正则表达式:对于复杂的正则表达式或性能敏感的应用,考虑预编译正则表达式对象(std::regex)而不是在循环中重复创建它。

1.4. 原始字符串字面量

原始字符串字面量(Raw String Literals)是C++11引入的一种字符串表示方式,它允许你定义包含特殊字符如反斜杠、换行符等的字符串,而不需要对这些字符进行转义。这使得处理正则表达式、文件路径或其他含有大量转义字符的字符串变得更为方便。

1.4.1. 语法格式

原始字符串字面量的基本语法如下:

R"delimiter(字符串内容)delimiter"
  • R:表示这是一个原始字符串字面量。
  • delimiter:是一个可选的分隔符,可以由最多16个字符组成。如果使用了分隔符,则在开头的 ( 之前和结尾的 ) 之后都需要加上这个分隔符。分隔符不能包含空格,并且必须与结束标记相匹配。
  • (字符串内容):这是实际的字符串内容,可以跨越多行,不需要对双引号或反斜杠进行转义。

如果没有指定分隔符,则默认情况下没有分隔符,即直接使用 R"(字符串内容)" 的形式。

1.4.2. 基本示例

std::string basic = R"(Hello\nWorld)";
// 结果: Hello\nWorld (而不是换行)

std::regex pattern(R"(\d{4})"); // 正则表达式模式,匹配4个数字

//与以下写法等价
std::regex pattern2("\\d{4}");

1.4.3. 使用自定义分隔符

当你需要在字符串中包含 )" 这样的序列时,你可以使用自定义分隔符来避免冲突:

std::string with_delimiter = R"hello(World "with" ) special chars\)hello";
// 结果: World "with" ) special chars\

std::regex pattern ( R"xx(20(\d{2}))xx");

在这个例子中,hello 是我们选择的分隔符,确保它可以正确地包围我们的字符串内容而不引起解析错误。

1.4.4. 多行文本

原始字符串字面量非常适合用于编写跨多行的字符串:

std::string multi_line = R"(
这是一个
多行的
字符串
)";

这样就可以轻松创建包含换行符的字符串,而无需手动添加 \n

1.5. std::regex_match

正则表达式匹配整个字符串,如果字符串与正则表达式完全匹配,则返回 true,否则返回 false

    std::string str ="Hello 2025,Bye 2024"; // 待测试的字符串
    std::regex pattern(R"(\d{4})"); // 正则表达式模式,匹配4个数字
    // 尝试匹配整个字符串是否符合模式
    if(std::regex_match(str,pattern))
    {
        // 如果匹配成功,记录日志
        spdlog::info("regex_match(str,pattern) 查找到后的输出:{}",str);
    }

当然,也可以在调用中传入std::smatch

    str="2025";
    std::smatch match; // 用于存储匹配结果的对象
    pattern="20(\\d{2})"; // 新的正则表达式模式,匹配以 "20" 开头,后跟两位数字,并捕获这两位数字
    // 尝试匹配整个字符串是否符合新模式,并将匹配结果存入 match 对象
    if(std::regex_match(str,match,pattern))
    {
        // 如果匹配成功,记录整个匹配的字符串和第一个捕获组的内容
        spdlog::info("regex_match(str,match,pattern) 整个匹配的字符串:{}",match.str(0));
        spdlog::info("regex_match(str,match,pattern) 第一个捕获组:{}",match.str(1));
        
    }

1.6. std::regex_search

正则表达式搜索整个字符串,如果字符串中存在与正则表达式匹配的子串,则返回 true,否则返回 false
注意其只返回找到的第一个字串,如果需要搜索所有匹配的子串,需要循环调用。

    str="Hello 2025,Bye 2024"; 
    pattern="\\d{4}"; // 正则表达式模式,匹配4个数字
    
    // 循环搜索字符串中所有符合模式的子串
    while(std::regex_search(str,match,pattern))
    {
        // 如果找到匹配项,记录匹配到的子串
        spdlog::info("regex_search(str,match,pattern) 查找后的输出 match.str():{}",match.str());
        // 更新待搜索的字符串为上一次匹配结果之后的部分
        str=match.suffix().str();
    }

1.7. std::regex_replace

进行正则表达式替换,会将所有找到的子串全都进行替换

    str="Hello 2025,Hello 2024"; 
    pattern="Hello"; // 新的正则表达式模式,匹配 "Hello"
    // 将字符串中所有匹配 "Hello" 的子串替换为 "Hi"
    string replaced_str=std::regex_replace(str,pattern,"Hi");
    // 记录替换后的字符串
    spdlog::info("replaced:{}",replaced_str);

如果只要替换某一个子串,可以使用std::regex_replace的第三个参数,指定要替换的子串的索引

  std::string str = "Hello 2025,Bye 2024"; // 待测试的字符串
    std::regex pattern("(\\d{4})"); // 正则表达式模式,匹配4个数字
    std::string replacement = "****"; // 替换字符串

    // 只替换第一个匹配的子串
    std::string result = std::regex_replace(str, pattern, replacement, std::regex_constants::format_first_only);
    std::cout << "替换第一个匹配项: " << result << std::endl; // 输出: "Hello ****,Bye 2024"

   

当然,也可以采用另一种做法,这种做法没有上一种简洁,但可以了解match.prefix()和match.suffix()的使用

str="Hello 2025,Hello 2024"; // 恢复待测试字符串
    pattern="Hello"; // 恢复之前的正则表达式模式,匹配 "Hello"
    
    // 搜索字符串中第一个符合模式的子串
    if(std::regex_search(str,match,pattern))
    {
        string replacement="Hi"; // 替换字符串
        // 手动构建只替换第一个匹配项后的字符串:匹配项前缀 + 替换字符串 + 匹配项后缀
        string s2=match.prefix().str()+replacement+match.suffix().str();
        // 记录只替换第一个匹配项后的输出
        spdlog::info("只替换第一个后的输出 :{}",s2);
    }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2385598.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

rce命令执行原理及靶场实战(详细)

2. 原理 在根源上应用系统从设计上要给用户提供一个指定的远程命令操作的接口。漏洞主要出现在常见的路由器、防火墙、入侵检测等设备的web管理界面上。在管理界面提供了一个ping服务。提交后&#xff0c;系统对该IP进行ping&#xff0c;并且返回结果。如果后台服务器并没有对…

Fuzz 模糊测试篇JS 算法口令隐藏参数盲 Payload未知文件目录

1 、 Fuzz 是一种基于黑盒的自动化软件模糊测试技术 , 简单的说一种懒惰且暴力的技术融合了常见 的以及精心构建的数据文本进行网站、软件安全性测试。 2 、 Fuzz 的核心思想 : 口令 Fuzz( 弱口令 ) 目录 Fuzz( 漏洞点 ) 参数 Fuzz( 利用参数 ) PayloadFuzz(Bypass)…

展示了一个三轴(X, Y, Z)坐标系!

等轴测投影”&#xff08;isometric projection&#xff09;风格的手绘风格三维图&#xff0c;即三条坐标轴&#xff08;x₁, x₂, x₃&#xff09;看起来彼此垂直、等角分布&#xff08;通常是 120 夹角&#xff09;&#xff0c;它是常见于教材和数学书籍的 “假三维”表示法。…

【b站计算机拓荒者】【2025】微信小程序开发教程 - chapter1 初识小程序 - 3项目目录结构4快速上手

3 项目目录结构 3.1 项目目录结构 3.1.1 目录介绍 # 1 项目主配置文件&#xff0c;在项目根路径下&#xff0c;控制整个项目的-app.js # 小程序入口文件&#xff0c;小程序启动&#xff0c;会执行此js-app.json # 小程序全局配置文件&#xff0c;配置小程序导航栏颜色等信息…

LLM Tuning

Lora-Tuning 什么是Lora微调&#xff1f; LoRA&#xff08;Low-Rank Adaptation&#xff09; 是一种参数高效微调方法&#xff08;PEFT, Parameter-Efficient Fine-Tuning&#xff09;&#xff0c;它通过引入低秩矩阵到预训练模型的权重变换中&#xff0c;实现无需大规模修改…

云计算与大数据进阶 | 28、存储系统如何突破容量天花板?可扩展架构的核心技术与实践—— 分布式、弹性扩展、高可用的底层逻辑(下)

在上篇中&#xff0c;我们围绕存储系统可扩展架构详细探讨了基础技术原理与典型实践。然而&#xff0c;在实际应用场景中&#xff0c;存储系统面临的挑战远不止于此。随着数据规模呈指数级增长&#xff0c;业务需求日益复杂多变&#xff0c;存储系统还需不断优化升级&#xff0…

水利数据采集MCU水资源的智能守护者

水利数据采集仪MCU&#xff0c;堪称水资源的智能守护者&#xff0c;其重要性不言而喻。在水利工程建设和水资源管理领域&#xff0c;MCU数据采集仪扮演着不可或缺的角色。它通过高精度的传感器和先进的微控制器技术&#xff0c;实时监测和采集水流量、水位、水质等关键数据&…

origin绘图之【如何将横坐标/x设置为文字、字母形式】

在使用 Origin 进行科研绘图或数据可视化的过程中&#xff0c;我们常常会遇到这样一种需求&#xff1a;希望将横坐标&#xff08;X轴&#xff09;由默认的数字形式&#xff0c;改为字母&#xff08;如 A、B、C……&#xff09;或中文文字&#xff08;如 一、二、三……&#xf…

工业智能网关建立烤漆设备故障预警及远程诊断系统

一、项目背景 烤漆房是汽车、机械、家具等工业领域广泛应用的设备&#xff0c;主要用于产品的表面涂装。传统的烤漆房控制柜采用本地控制方式&#xff0c;操作人员需在现场进行参数设置和设备控制&#xff0c;且存在设备智能化程度低、数据孤岛、设备维护成本高以及依靠传统人…

Kafka Streams 和 Apache Flink 的无状态流处理与有状态流处理

Kafka Streams 和 Apache Flink 与数据库和数据湖相比的无状态和有状态流处理的概念和优势。 在数据驱动的应用中&#xff0c;流处理的兴起改变了我们处理和操作数据的方式。虽然传统数据库、数据湖和数据仓库对于许多基于批处理的用例来说非常有效&#xff0c;但在要求低延迟…

LM-BFF——语言模型微调新范式

gpt3&#xff08;GPT3——少样本示例推动下的通用语言模型雏形)结合提示词和少样本示例后&#xff0c;展示出了强大性能。但大语言模型的训练门槛太高&#xff0c;普通研究人员无力&#xff0c;LM-BFF(Making Pre-trained Language Models Better Few-shot Learners)的作者受gp…

NVMe高速传输之摆脱XDMA设计2

NVMe IP放弃XDMA原因 选用XDMA做NVMe IP的关键传输模块&#xff0c;可以加速IP的设计&#xff0c;但是XDMA对于开发者来说&#xff0c;还是不方便&#xff0c;原因是它就象一个黑匣子&#xff0c;调试也非一番周折&#xff0c;尤其是后面PCIe4.0升级。 因此决定直接采用PCIe设…

pycharm无需科学上网工具下载插件的解决方案

以下是两种无需科学上网即可下载 PyCharm 插件的解决思路&#xff1a; 方法 1&#xff1a;设置 PyCharm 代理 打开 PyCharm选择菜单&#xff1a;File → Settings → Appearance & Behavior → System Settings → HTTP Proxy在代理设置中进行如下配置&#xff1a; 代理地…

Halcon计算点到平面的距离没有那么简单

Halcon计算点到平面距离 1. 一些基本概念2. 浅谈有无符号的距离2.1 无符号距离的用武之地2.2 有符号距离的必要性 3. 无符号距离怎么算3.1 创建一个无限延展的基准平面&#xff0c;对距离有什么影响&#xff1f;Halcon代码图示 3.2 创建一个小小小的基准平面&#xff0c;对距离…

数据中台如何设计?中台开发技术方案,数据治理方案,大数据建设方案合集

中台的价值与核心理念 中台的核心在于“企业级能力复用”&#xff0c;其价值体现在四大维度&#xff1a; 能力整合&#xff1a;将分散的数字化能力&#xff08;如营销、供应链&#xff09;集中管理&#xff0c;形成核心竞争力&#xff1b; 业务创新&#xff1a;通过跨领域融合…

Adminer 连接mssql sqlserver

第一步 docker-compose.yml adminer部分&#xff1a; version: 3.8 services: adminer: image: adminer:latest container_name: adminer restart: unless-stopped volumes: - ./freetds/freetds.conf:/etc/freetds.conf:rw # 确保 :rw 可读写 co…

C++系统IO

C系统IO 头文件的使用 1.使用系统IO必须包含相应的头文件&#xff0c;通常使用#include预处理指令。 2.头文件中包含了若干变量的声明&#xff0c;用于实现系统IO。 3.头文件的引用方式有双引号和尖括号两种&#xff0c;区别在于查找路径的不同。 4.C标准库提供的头文件通常没…

DELL EMC PowerStore BBU更换手册

写在前面 上周给客户卖了一个BBU电池&#xff0c;客户要写一个更换方案。顺利完成了更换&#xff0c;下面就把这个更换方案给大家share出来&#xff0c;以后客户要写&#xff0c;您就Ctrlc 和Ctrlv就可以了。 下面的步骤是最理想的方式&#xff0c;中间没有任何的问题&#xff…

css五边形

五边形 .fu{width: 172rpx;height: 204rpx;overflow: hidden;border-radius: 10rpx;clip-path: polygon(0% 0%, 100% 0%, 100% 75%, 50% 100%, 0% 75%, 0% 25%); }六边形 clip-path: polygon(50% 0%, 100% 25%, 100% 75%, 50% 100%, 0% 75%, 0% 25%);

三种常见脉冲神经网络编码方式解读

速率编码&#xff08;rate coding) 速率编码使用输入特征来确定尖峰频率&#xff0c;例如将静态输入数据&#xff08;如 MNIST 图像&#xff09;转换为时间上的脉冲&#xff08;spike&#xff09;序列。它是将神经元发放脉冲的频率与输入值&#xff08;如像素强度&#xff09;…