Java正则表达式:从基础到高级应用全解析

news2025/5/19 14:59:59

Java正则表达式应用与知识点详解

一、正则表达式基础概念

正则表达式(Regular Expression)是通过特定语法规则描述字符串模式的工具,常用于:

  • 数据格式验证
  • 文本搜索与替换
  • 字符串分割
  • 模式匹配提取

Java通过java.util.regex包提供支持,核心类:

  • Pattern:编译后的正则表达式对象
  • Matcher:执行匹配操作的引擎
  • PatternSyntaxException:正则语法异常
二、核心语法详解
  1. 字符匹配
// 匹配数字字符
String regex = "\\d";  // 等效于[0-9]
System.out.println("8".matches(regex));  // true

// 特殊字符转义
String regex2 = "\\$\\d+\\.\\d{2}";  // 匹配$12.34格式
System.out.println("$99.99".matches(regex2)); // true

  1. 预定义字符类 | 表达式 | 说明 | |--------|-----------------------| | \d | 数字:[0-9] | | \D | 非数字:[^0-9] | | \s | 空白字符:[\t\n\x0B\f\r] | | \w | 单词字符:[a-zA-Z_0-9]|

  2. 量词

String regex = "a{2,4}";  // 匹配2到4个a
System.out.println("aaa".matches(regex));  // true

  1. 边界匹配
// 匹配完整行
String regex = "^\\d{3}-\\d{4}$";
System.out.println("123-4567".matches(regex));  // true

三、分组与反向引用
Pattern pattern = Pattern.compile("(\\d{3})-(\\d{4})");
Matcher matcher = pattern.matcher("123-4567");
if(matcher.find()){
    System.out.println(matcher.group(0));  // 123-4567
    System.out.println(matcher.group(1));  // 123
    System.out.println(matcher.group(2));  // 4567
}

四、常用方法实战
  1. 字符串分割
String[] parts = "apple,banana;cherry".split("[,;]");
// ["apple", "banana", "cherry"]

  1. 替换操作
String result = "18812345678".replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2");
// 188****5678

  1. 复杂匹配验证
// 邮箱验证正则
String emailRegex = "^[\\w-]+(\\.[\\w-]+)*@([\\w-]+\\.)+[a-zA-Z]{2,7}$";
System.out.println("test@example.com".matches(emailRegex));  // true

五、高级应用示例
  1. 提取HTML内容
String html = "<div><h1>Title</h1><p>Content</p></div>";
Pattern tagPattern = Pattern.compile("<([a-zA-Z]+)>(.*?)</\\1>");
Matcher m = tagPattern.matcher(html);

while(m.find()){
    System.out.println("标签:" + m.group(1) + " 内容:" + m.group(2));
}
// 输出:
// 标签:h1 内容:Title
// 标签:p 内容:Content

  1. 日志分析
String log = "2023-08-20 14:23:45 [INFO] User login: id=12345";
Pattern logPattern = Pattern.compile(
    "(\\d{4}-\\d{2}-\\d{2}) " +         // 日期
    "(\\d{2}:\\d{2}:\\d{2}) " +         // 时间
    "\\[(\\w+)\\] " +                   // 日志级别
    "(.+)");                            // 消息内容

Matcher m = logPattern.matcher(log);
if(m.find()){
    System.out.println("时间:" + m.group(1) + " " + m.group(2));
    System.out.println("级别:" + m.group(3));
    System.out.println("消息:" + m.group(4));
}

六、性能优化建议
  1. 预编译Pattern对象
// 多次使用的正则应预编译
private static final Pattern DATE_PATTERN = 
    Pattern.compile("\\d{4}-\\d{2}-\\d{2}");

  1. 避免过度回溯
// 差:(a+)*b 
// 优:a+b

  1. 合理使用懒惰量词
// 匹配最短内容
<.*?>  // 懒惰匹配

七、常见问题解决
  1. 中文匹配
String chineseRegex = "[\\u4e00-\\u9fa5]+";
System.out.println("中文测试".matches(chineseRegex));  // true

  1. 多行匹配模式
Pattern multiLine = Pattern.compile("^\\d+", Pattern.MULTILINE);
String input = "123\n456";
Matcher m = multiLine.matcher(input);
while(m.find()){
    System.out.println(m.group());  // 输出123和456
}

  1. 大小写不敏感
Pattern.compile("[a-z]+", Pattern.CASE_INSENSITIVE);

八、调试工具推荐
  1. 在线验证工具:regex101.com
  2. IDEA内置正则调试器
  3. Regex Tester插件

通过系统学习正则表达式,可以显著提升文本处理效率。建议从简单模式开始实践,逐步掌握复杂表达式编写技巧,同时注意特殊字符转义和性能优化问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2379359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WindowsPE文件格式入门11.资源表

https://www.bpsend.net/thread-411-1-1.html 资源表 资源的管理方式采用windows资源管理器目录的管理方式&#xff0c;一般有三层目录。根目录 结构体IMAGE_RESOURCE_DIRECTORY&#xff1a;描述名称资源和ID资源各自的数量&#xff0c;不描述文件。资源本质都是二进制数据&…

C语言标准I/O与Linux系统调用的文件操作

01. 标准库函数与系统调用对比 系统调用标准I/O库open/read/write/closefopen/fread/fwrite/fclose文件描述符(fd)文件指针(FILE*)无缓冲&#xff0c;直接系统调用自动缓冲管理每次操作触发系统调用减少系统调用次数<fcntl.h> <unistd.h><stdio.h> 系统调用…

【MYSQL】笔记

&#x1f4da; 博主的专栏 &#x1f427; Linux | &#x1f5a5;️ C | &#x1f4ca; 数据结构 | &#x1f4a1;C 算法 | &#x1f152; C 语言 | &#x1f310; 计算机网络 在ubuntu中&#xff0c;改配置文件&#xff1a; sudo nano /etc/mysql/mysql.conf.d/mysq…

线程池核心线程永续机制:从源码到实战的深度解析

简介 源管理的基石,其核心线程为何不会超时销毁一直是开发者关注的焦点。核心线程的永续机制不仅确保了系统的稳定响应,还避免了频繁创建和销毁线程带来的性能损耗。本文将从源码层面深入剖析线程池核心线程的存活原理,同时结合企业级实战案例,展示如何正确配置和管理线程…

DS新论文解读(2)

上一章忘了说论文名字了&#xff0c;是上图这个名字 我们继续&#xff0c;上一章阅读地址&#xff1a; dsv3新论文解读&#xff08;1&#xff09; 这论文剩下部分值得说的我觉得主要就是他们Infra通信的设计 先看一个图 这个是一个标准的h800 8卡with 8cx7 nic的图&#xf…

html文件cdn一键下载并替换

业务场景&#xff1a; AI生成的html文件&#xff0c;通常会使用多个cdn资源、手动替换or下载太过麻烦、如下py程序为此而生&#xff0c;指定html目录自动下载并替换~ import os import requests from bs4 import BeautifulSoup from urllib.parse import urlparse import has…

【ROS2】 核心概念6——通信接口语法(Interfaces)

古月21讲/2.6_通信接口 官方文档&#xff1a;Interfaces — ROS 2 Documentation: Humble documentation 官方接口代码实战&#xff1a;https://docs.ros.org/en/humble/Tutorials/Beginner-Client-Libraries/Single-Package-Define-And-Use-Interface.html ROS 2使用简化的描…

matlab官方免费下载安装超详细教程2025最新matlab安装教程(MATLAB R2024b)

文章目录 准备工作MATLAB R2024b 安装包获取详细安装步骤1. 文件准备2. 启动安装程序3. 配置安装选项4. 选择许可证文件5. 设置安装位置6. 选择组件7. 开始安装8. 完成辅助设置 常见问题解决启动失败问题 结语 准备工作 本教程将帮助你快速掌握MATLAB R2024b的安装技巧&#x…

【运营商查询】批量手机号码归属地和手机运营商高速查询分类,按省份城市,按运营商移动联通电信快速分类导出Excel表格,基于WPF的实现方案

WPF手机号码归属地批量查询与分类导出方案 应用场景 ​​市场营销​​&#xff1a;企业根据手机号码归属地进行精准营销&#xff0c;按城市或省份分类制定针对性推广策略​​客户管理​​&#xff1a;快速对客户手机号码进行归属地分类&#xff0c;便于后续客户关系管理​​数…

ctf 基础

一、软件安装和基本的网站&#xff1a; 网安招聘网站 xss跨站脚本攻击 逆向&#xff1a;可以理解为游戏里的外挂 pwn最难的题目 密码学&#xff1a; 1、编码&#xff1a;base64 2、加密&#xff1a;凯撒 3、摘要&#xff1a;MD5、SHA1、SHA2 调查取证&#xff1a;杂项&am…

CentOS7原有磁盘扩容实战记录(LVM非LVM)【针对GPT分区】

一、环境 二、命令及含义 fdisk ‌ ‌ fdisk‌是一个较老的分区表创建和管理工具&#xff0c;主要支持MBR&#xff08;Master Boot Record&#xff09;格式的分区表。MBR分区表支持的硬盘单个分区最大容量为2TB&#xff0c;最多可以有4个主分区。fdisk通过命令行界面进行操…

AI agent与lang chain的学习笔记 (1)

文章目录 智能体的4大要素一些上手的例子与思考。创建简单的AI agent.从本地读取文件&#xff0c;然后让AI智能体总结。 也可以自己定义一些工具 来完成一些特定的任务。我们可以使用智能体总结一个视频。用户可以随意问关于视频的问题。 智能体的4大要素 AI 智能体有以下几个…

谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式

BLIP3-o 是一个统一的多模态模型&#xff0c;它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。与之前扩散 VAE 特征或原始像素的研究不同&#xff0c;BLIP3-o 扩散了语义丰富的CLIP 图像特征&#xff0c;从而为图像理解和生成构建了强大而高效的架构。 此外还…

【idea】调试篇 idea调试技巧合集

前言&#xff1a;之前博主写过一篇idea技巧合集的文章&#xff0c;由于技巧过于多了&#xff0c;文章很庞大&#xff0c;所以特地将调试相关的技巧单独成章, 调试和我们日常开发是息息相关的&#xff0c;用好调试可以事半功倍 文章目录 1. idea调试异步线程2. idea调试stream流…

二叉树深搜:在算法森林中寻找路径

专栏&#xff1a;算法的魔法世界 个人主页&#xff1a;手握风云 目录 一、搜索算法 二、回溯算法 三、例题讲解 3.1. 计算布尔二叉树的值 3.2. 求根节点到叶节点数字之和 3.3. 二叉树剪枝 3.4. 验证二叉搜索树 3.5. 二叉搜索树中第 K 小的元素 3.6. 二叉树的所有路径 …

BMVC2023 | 多样化高层特征以提升对抗迁移性

Diversifying the High-level Features for better Adversarial Transferability 摘要-Abstract引言-Introduction相关工作-Related Work方法-Methodology实验-Experiments结论-Conclusion 论文链接 GitHub链接 本文 “Diversifying the High-level Features for better Adve…

有哪些GIF图片转换的开源工具

以下是关于GIF图片转换的开源工具的详细总结,涵盖功能特点、适用场景及用户评价: 1. FFmpeg 功能特点: 作为开源命令行工具,FFmpeg支持视频转GIF、调整帧率、分辨率、截取片段等操作,可通过脚本批量处理。适用场景: 适合开发者或技术用户进行高效批处理,常用于服务器端自…

C++—特殊类设计设计模式

目录 C—特殊类设计&设计模式1.设计模式2.特殊类设计2.1设计一个无法被拷贝的类2.2设计一个只能在堆上创建对象的类2.3设计一个只能在栈上创建对象的类2.4设计一个类&#xff0c;无法被继承2.5设计一个类。这个类只能创建一个对象【单例模式】2.5.1懒汉模式实现2.5.2饿汉模…

Android 手写签名功能详解:从原理到实践

Android 手写签名功能详解 1. 引言2. 手写签名核心实现&#xff1a;SignatureView 类3. 交互层实现&#xff1a;MainActivity 类4. 布局与配置5. 性能优化与扩展方向 1. 引言 在电子政务、金融服务等移动应用场景中&#xff0c;手写签名功能已成为提升用户体验与业务合规性的关…

Level2.8蛇与海龟(游戏)

#小龟快跑游戏 输入难度(1-5),蛇追到龟&#xff0c;游戏结束 #分析问题&#xff1a;从局部>整体 #游戏画面&#xff1a;创建画笔(海龟蛇)>1.海龟移动(键盘控制)>2.蛇(自动追踪&#xff0c;海龟位置)>3.海龟(限定范围&#xff0c;防止跑出画布之外)>4.游戏&…