Java正则表达式完全指南

news2025/6/4 5:52:47

Java正则表达式完全指南

    • 一、正则表达式基础概念
      • 1.1 什么是正则表达式
      • 1.2 Java中的正则表达式支持
    • 二、正则表达式基本语法
      • 2.1 普通字符
      • 2.2 元字符
      • 2.3 预定义字符类
    • 三、Java中正则表达式的基本用法
      • 3.1 编译正则表达式
      • 3.2 创建Matcher对象并执行匹配
      • 3.3 常用的Matcher方法
    • 四、正则表达式高级应用
      • 4.1 分组与捕获
      • 4.2 反向引用
      • 4.3 贪婪匹配与非贪婪匹配
      • 4.4 零宽断言
    • 五、正则表达式在实际开发中的应用
      • 5.1 表单验证
        • 邮箱验证
        • 手机号验证
        • 身份证号码验证
      • 5.2 文本替换
        • 替换HTML标签
        • 敏感词过滤
      • 5.3 文本分割
        • 按逗号或空格分割
        • 按数字分割
    • 六、正则表达式性能优化
    • 七、常见问题与注意事项
    • 总结

正则表达式(Regular Expression,简称Regex)是一种强大的文本处理工具,它可以帮助开发者高效地进行字符串匹配、查找、替换和分割等操作。在Java中正则表达式的应用场景极为广泛,从简单的表单验证到复杂的文本解析,都离不开正则表达式的支持。虽然之前我也讲过正则表达式,但过于通用,今天本文将专门全面介绍Java中正则表达式的相关知识,从基础语法到高级应用,并结合丰富实例代码,带你深入理解和掌握这一强大工具。

一、正则表达式基础概念

1.1 什么是正则表达式

正则表达式是一种由字符和特殊符号组成的模式,用于描述字符串的特定格式规则。通过使用正则表达式,可以:

  • 检查字符串是否符合特定格式(如邮箱、手机号)
  • 从文本中提取感兴趣的内容(如URL、数字)
  • 替换文本中的特定部分
  • 将文本按特定规则分割

1.2 Java中的正则表达式支持

Java通过java.util.regex包提供对正则表达式的支持,主要涉及以下三个类:

  • Pattern:用于编译正则表达式,将正则表达式字符串编译为模式对象。
  • Matcher:用于执行匹配操作,对输入字符串进行解释和匹配操作。
  • PatternSyntaxException:用于处理正则表达式语法错误的异常类。

二、正则表达式基本语法

2.1 普通字符

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符,它们直接匹配自身。例如:

  • abc 匹配字符串 “abc”
  • 123 匹配字符串 “123”

2.2 元字符

元字符是正则表达式中具有特殊含义的字符,常用的元字符及其含义如下:

元字符描述
.匹配除换行符以外的任意字符
^匹配字符串的开始位置
$匹配字符串的结束位置
*匹配前面的子表达式零次或多次
+匹配前面的子表达式一次或多次
?匹配前面的子表达式零次或一次
{n}匹配前面的子表达式恰好n次
{n,}匹配前面的子表达式至少n次
{n,m}匹配前面的子表达式至少n次,至多m次
[]匹配方括号中指定的任意一个字符
[^]匹配不在方括号中指定的任意一个字符
()标记一个子表达式的开始和结束位置
|表示或关系,匹配两个或多个选项之一

2.3 预定义字符类

为了简化常用字符类的定义,Java提供了一些预定义字符类:

预定义字符类等价表达式描述
\d[0-9]匹配一个数字字符
\D[^0-9]匹配一个非数字字符
\w[a-zA-Z_0-9]匹配一个单词字符(字母、数字、下划线)
\W[^a-zA-Z_0-9]匹配一个非单词字符
\s[ \t\n\x0B\f\r]匹配一个空白字符(空格、制表符、换行符等)
\S[^ \t\n\x0B\f\r]匹配一个非空白字符

三、Java中正则表达式的基本用法

3.1 编译正则表达式

在Java中使用正则表达式,首先需要将正则表达式字符串编译为Pattern对象:

import java.util.regex.Pattern;

public class RegexExample {
    public static void main(String[] args) {
        // 编译正则表达式
        Pattern pattern = Pattern.compile("a.*c");
    }
}

3.2 创建Matcher对象并执行匹配

编译后的Pattern对象用于创建Matcher对象,然后通过Matcher对象执行匹配操作:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexExample {
    public static void main(String[] args) {
        // 编译正则表达式
        Pattern pattern = Pattern.compile("a.*c");
        
        // 创建Matcher对象
        Matcher matcher = pattern.matcher("abc");
        
        // 执行匹配操作
        boolean isMatch = matcher.matches();
        System.out.println("是否匹配: " + isMatch);  // 输出: true
    }
}

3.3 常用的Matcher方法

  • matches():尝试将整个输入序列与模式匹配。
  • find():在输入序列中查找下一个匹配的子序列。
  • group():返回当前匹配的子序列。
  • start():返回当前匹配的子序列的起始索引。
  • end():返回当前匹配的子序列的结束索引加1。

示例代码:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexExample {
    public static void main(String[] args) {
        String input = "Hello, world! Hello, Java!";
        Pattern pattern = Pattern.compile("Hello");
        Matcher matcher = pattern.matcher(input);
        
        // 查找所有匹配项
        while (matcher.find()) {
            System.out.println("匹配到: " + matcher.group() + 
                              ", 起始位置: " + matcher.start() + 
                              ", 结束位置: " + matcher.end());
        }
    }
}

输出结果:

匹配到: Hello, 起始位置: 0, 结束位置: 5
匹配到: Hello, 起始位置: 14, 结束位置: 19

四、正则表达式高级应用

4.1 分组与捕获

使用圆括号()可以将正则表达式中的部分内容分组,每个分组可以被单独捕获和引用。分组编号从1开始,0表示整个匹配结果。

示例:匹配并提取邮箱地址中的用户名和域名

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GroupExample {
    public static void main(String[] args) {
        String email = "test.user@example.com";
        String regex = "([a-zA-Z0-9._%+-]+)@([a-zA-Z0-9.-]+\\.[a-zA-Z]{2,})";
        
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(email);
        
        if (matcher.matches()) {
            System.out.println("完整匹配: " + matcher.group(0));  // 整个匹配结果
            System.out.println("用户名: " + matcher.group(1));    // 第一组
            System.out.println("域名: " + matcher.group(2));      // 第二组
        }
    }
}

输出结果:

完整匹配: test.user@example.com
用户名: test.user
域名: example.com

4.2 反向引用

在正则表达式中,可以使用\n(n为数字)引用前面已经捕获的分组。例如,匹配重复的单词:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class BackreferenceExample {
    public static void main(String[] args) {
        String text = "hello hello world world";
        String regex = "\\b(\\w+)\\s+\\1\\b";
        
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        
        while (matcher.find()) {
            System.out.println("重复的单词: " + matcher.group());
        }
    }
}

输出结果:

重复的单词: hello hello
重复的单词: world world

4.3 贪婪匹配与非贪婪匹配

  • 贪婪匹配:默认情况下,正则表达式的量词(如*+{n,m})是贪婪的,会尽可能多地匹配字符。
  • 非贪婪匹配:在量词后面加上?,可以将贪婪匹配转换为非贪婪匹配,尽可能少地匹配字符。

示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GreedyVsNonGreedy {
    public static void main(String[] args) {
        String text = "<html><body><h1>Hello</h1></body></html>";
        
        // 贪婪匹配
        String greedyRegex = "<.*>";
        Pattern greedyPattern = Pattern.compile(greedyRegex);
        Matcher greedyMatcher = greedyPattern.matcher(text);
        
        if (greedyMatcher.find()) {
            System.out.println("贪婪匹配: " + greedyMatcher.group());
        }
        
        // 非贪婪匹配
        String nonGreedyRegex = "<.*?>";
        Pattern nonGreedyPattern = Pattern.compile(nonGreedyRegex);
        Matcher nonGreedyMatcher = nonGreedyPattern.matcher(text);
        
        while (nonGreedyMatcher.find()) {
            System.out.println("非贪婪匹配: " + nonGreedyMatcher.group());
        }
    }
}

输出结果:

贪婪匹配: <html><body><h1>Hello</h1></body></html>
非贪婪匹配: <html>
非贪婪匹配: <body>
非贪婪匹配: <h1>
非贪婪匹配: </h1>
非贪婪匹配: </body>
非贪婪匹配: </html>

4.4 零宽断言

零宽断言用于在特定位置匹配某些内容,但不包含匹配的内容本身。Java支持四种零宽断言:

断言类型语法描述
正向先行断言(?=pattern)匹配后面跟着pattern的位置
负向先行断言(?!pattern)匹配后面不跟着pattern的位置
正向后行断言(?<=pattern)匹配前面是pattern的位置
负向后行断言(?<!pattern)匹配前面不是pattern的位置

示例:匹配所有以"ing"结尾的单词

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class LookaroundExample {
    public static void main(String[] args) {
        String text = "running jumping swimming";
        String regex = "\\b\\w+(?=ing\\b)";
        
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        
        while (matcher.find()) {
            System.out.println("匹配到: " + matcher.group());
        }
    }
}

输出结果:

匹配到: run
匹配到: jump
匹配到: swim

五、正则表达式在实际开发中的应用

5.1 表单验证

正则表达式常用于表单验证,确保用户输入的数据符合预期格式。

邮箱验证
public static boolean isValidEmail(String email) {
    String regex = "^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$";
    return Pattern.matches(regex, email);
}
手机号验证
public static boolean isValidPhone(String phone) {
    String regex = "^1[3-9]\\d{9}$";
    return Pattern.matches(regex, phone);
}
身份证号码验证
public static boolean isValidIdCard(String idCard) {
    String regex = "^[1-9]\\d{5}(18|19|20)\\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\\d|3[01])\\d{3}[0-9Xx]$";
    return Pattern.matches(regex, idCard);
}

5.2 文本替换

使用正则表达式可以方便地进行文本替换操作。

替换HTML标签
public static String removeHtmlTags(String html) {
    String regex = "<[^>]+>";
    return html.replaceAll(regex, "");
}
敏感词过滤
public static String filterSensitiveWords(String text) {
    String[] sensitiveWords = {"敏感词1", "敏感词2", "敏感词3"};
    String regex = String.join("|", sensitiveWords);
    return text.replaceAll(regex, "***");
}

5.3 文本分割

使用正则表达式可以按复杂规则分割文本。

按逗号或空格分割
public static String[] splitText(String text) {
    String regex = "[,\\s]+";
    return text.split(regex);
}
按数字分割
public static String[] splitByNumbers(String text) {
    String regex = "\\d+";
    return text.split(regex);
}

六、正则表达式性能优化

  1. 编译一次,多次使用:避免在循环中重复编译相同的正则表达式,应将编译后的Pattern对象缓存并复用。
  2. 简化正则表达式:复杂的正则表达式会降低匹配效率,尽量使用简单、明确的表达式。
  3. 避免过度使用回溯:贪婪匹配和反向引用可能导致大量回溯,影响性能。
  4. 优先使用String类的方法:对于简单的字符串操作,如startsWith()endsWith()indexOf()等,应优先使用String类的方法,比正则表达式效率更高。

七、常见问题与注意事项

  1. 转义字符问题:在Java字符串中使用正则表达式时,需要注意转义字符。例如,匹配点号.需要写成\\.,匹配反斜杠\需要写成\\\\
  2. 性能问题:复杂的正则表达式可能导致性能问题,特别是在处理大量数据时。
  3. 边界问题:使用^$时要注意是否需要匹配整个字符串,还是只需要匹配部分内容。
  4. Unicode支持:Java默认支持Unicode字符,但在处理非ASCII字符时需要特别注意。

总结

正则表达式是Java中强大的文本处理工具,掌握正则表达式的基本语法和Java中的使用方法,对于提高字符串处理效率和开发质量至关重要。本文从基础概念入手,详细介绍了正则表达式的语法、Java中的API使用、高级应用场景以及性能优化等方面的内容,希望你在今后熟练使用尽量掌握。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2395808.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智慧充电桩数字化管理平台:环境监测与动态数据可视化技术有哪些作用?

随着新能源汽车的普及&#xff0c;智慧充电桩作为基础设施的重要组成部分&#xff0c;正逐步向数字化、智能化方向发展。环境监测与动态数据可视化技术的应用&#xff0c;为充电桩的高效管理和运维提供了全新解决方案。通过实时采集环境参数与运行数据&#xff0c;并结合可视化…

家政小程序开发,开启便捷生活新篇章

在快节奏的现代生活中&#xff0c;家务琐事常常让人分身乏术&#xff0c;如何高效解决家政服务需求成了众多家庭的难题。家政小程序开发&#xff0c;正是为解决这一痛点而生&#xff0c;它将为您带来前所未有的便捷生活体验。 想象一下&#xff0c;您只需打开手机上的家政小程…

李臻20242817_安全文件传输系统项目报告_第14周

安全文件传输系统项目报告&#xff08;第 14 周&#xff09; 1. 代码链接 Gitee 仓库地址&#xff1a;https://gitee.com/li-zhen1215/homework/tree/master/Secure-file 代码结构说明&#xff1a; SecureFileTransfer/ ├── client/ # 客户端主目…

20250531MATLAB三维绘图

MATLAB三维绘图 三维曲线&#xff1a;plot3功能介绍代码实现过程plot3实现效果 三维曲面空间曲面作图命令&#xff1a;meshmeshgrid语法示例应用meshgrid实操训练 peakspeaks 的基本用法peaks数学表达式实操训练自定义网格大小使用自定义网格 meshMATLAB代码对齐快捷键Ctrli墨西…

深入理解C#异步编程:原理、实践与最佳方案

在现代软件开发中&#xff0c;应用程序的性能和响应能力至关重要。特别是在处理I/O密集型操作&#xff08;如网络请求、文件读写、数据库查询&#xff09;时&#xff0c;传统的同步编程方式会导致线程阻塞&#xff0c;降低程序的吞吐量。C# 的异步编程模型&#xff08;async/aw…

基于千帆大模型的AI体检报告解读系统实战:使用OSS与PDFBox实现PDF内容识别

目录 说明 前言 需求 流程说明 表结构说明 整体流程 百度智能云 注册和实名认证 创建应用 费用说明 大模型API说明 集成大模型 设计Prompt 上传体检报告 读取PDF内容 功能实现 智能评测 抽取大模型工具 功能实现 总结 说明 AI体检报告解读、病例小结或者…

Spring,SpringMVC,SpringBoot

1.Spring最核心包括aop和ioc概念 AOP 能够将将哪些于业务无关的&#xff0c;并且大量重复的业务逻辑进行封装起来&#xff0c;便于减少重复代码&#xff0c;降低模块之间的耦合度&#xff0c;给未来的系统更好的可用性和可维护性。 Spring中AOP是采用动态代理&#xff0c;JDK代…

数据分析学习笔记——A/B测试

目录 前言 A/B测试中的统计学方法 假设检验 Levenes Test莱文测试 t 检验&#xff08;两组均值差异&#xff09; 实战案例 数据来源及参考资料 代码详解 导入数据 计算ROI Request检验 GMV检验 ROI检验 结语 前言 什么是A/B测试&#xff1f;说白了就是中学生物实…

基于RK3568/RK3588/全志H3/飞腾芯片/音视频通话程序/语音对讲/视频对讲/实时性好/极低延迟

一、前言说明 近期收到几个需求都是做音视频通话&#xff0c;很多人会选择用webrtc的方案&#xff0c;这个当然是个不错的方案&#xff0c;但是依赖的东西太多&#xff0c;而且相关组件代码量很大&#xff0c;开发难度大。所以最终选择自己属性的方案&#xff0c;那就是推流拉…

解决 Win11 睡眠后黑屏无法唤醒的问题

目录 一、问题描述二、解决方法1. 禁用快速启动2. 设置 Management Engine Interface3. 允许混合睡眠其他命令 4. 修复系统文件5. 更新 Windows 或驱动程序6. 其他1&#xff09;更改电源选项2&#xff09;刷新 Hiberfil.sys 文件3&#xff09;重置电源计划4&#xff09;运行系统…

[ElasticSearch] RestAPI

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

Linux中的shell脚本

什么是shell脚本 shell脚本是文本的一种shell脚本是可以运行的文本shell脚本的内容是由逻辑和数据组成shell脚本是解释型语言 用file命令可以查看文件是否是一个脚本文件 file filename 脚本书写规范 注释 单行注释 使用#号来进行单行注释 多行注释 使用 : " 注释内容…

dvwa3——CSRF

LOW&#xff1a; 先尝试change一组密码&#xff1a;123456 修改成功&#xff0c;我们观察上面的url代码 http://localhost/DVWA/vulnerabilities/csrf/?password_new123456&password_conf123456&ChangeChange# 将password_new部分与password_conf部分改成我们想要的…

【学习笔记】Transformer

学习的博客&#xff08;在此致谢&#xff09;&#xff1a; 初识CV - Transformer模型详解&#xff08;图解最完整版&#xff09; 1 整体结构 Transformer由Encoder和Decoder组成&#xff0c;分别包含6个block。 Transformer的工作流程大体如下&#xff1a; 获取每个单词的em…

欢乐熊大话蓝牙知识12:用 BLE 打造家庭 IoT 网络的三种方式

🏠 用 BLE 打造家庭 IoT 网络的三种方式 不止是“蓝牙耳机”,BLE 还能把你家“点亮成精”! 👋 前言:BLE 不只是蓝牙耳机的“代名词” 蓝牙?很多人一听就联想到“耳机连接失败请重试”。但你知道吗?现在 BLE(Bluetooth Low Energy)在智能家居中已经偷偷搞起了大事情。…

02.上帝之心算法用GPU计算提速50倍

本文介绍了上帝之心的算法及其Python实现&#xff0c;使用Python语言的性能分析工具测算性能瓶颈&#xff0c;将算法最耗时的部分重构至CUDA C语言在纯GPU上运行&#xff0c;利用GPU核心更多并行更快的优势显著提高算法运算速度&#xff0c;实现了结果不变的情况下将耗时缩短五…

MES管理系统:Java+Vue,含源码与文档,实现生产过程实时监控、调度与优化,提升制造企业效能

前言&#xff1a; 在当今竞争激烈的制造业环境中&#xff0c;企业面临着提高生产效率、降低成本、提升产品质量以及快速响应市场变化等多重挑战。MES管理系统作为连接企业上层计划管理系统与底层工业控制之间的桥梁&#xff0c;扮演着至关重要的角色。它能够实时收集、分析和处…

LeetCode算法题 (搜索二维矩阵)Day18!!!C/C++

https://leetcode.cn/problems/search-a-2d-matrix/description/ 一、题目分析 给你一个满足下述两条属性的 m x n 整数矩阵&#xff1a; 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target &#xff0c;如果 ta…

VectorStore 组件深入学习与检索方法

考虑到目前市面上的向量数据库众多&#xff0c;每个数据库的操作方式也无统一标准&#xff0c;但是仍然存在着一些公共特征&#xff0c;LangChain 基于这些通用的特征封装了 VectorStore 基类&#xff0c;在这个基类下&#xff0c;可以将方法划分成 6 种&#xff1a; 相似性搜…

HackMyVM-First

信息搜集 主机发现 ┌──(kali㉿kali)-[~] └─$ nmap -sn 192.168.43.0/24 Starting Nmap 7.95 ( https://nmap.org ) at 2025-05-31 06:13 EDT Nmap scan report for 192.168.43.1 Host is up (0.0080s latency). MAC Address: C6:45:66:05:91:88 (Unknown) …