官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特殊字符、及这些特定字符的组合,组成一个“规则字符串”,这个规则字符串用来表达对字符串的一种过滤逻辑。
1、在Linux运维中,vi、grep、awk和sed这些工具,都是可以用来作为正则表达式的字符串处理的。
import re
phone_number = input("Please input your phone number: ")
if re.match('0?(13|14|15|17|18|19)[0-9]{9}', phone_number):
    print('是合法的手机号码')
else:
    print('不是合法的手机号码') 
 
2、我们可以从网上获得常用的正则表达式,如果我们需要写自己的正则表达式,那就需要系统地进行学习。

3、字符组:只能匹配一位
 正则  |  待匹配字符  |  匹配 结果  |  说明  | 
 [0123456789]  |  8  |  True  |  在一个字符组里枚举合法的所有字符,字符组里的任意一个字符 和"待匹配字符"相同都视为可以匹配  | 
 [0123456789]  |  a  |  False  |  由于字符组中没有"a"字符,所以不能匹配  | 
  [0-9]  |   7  |  True  |  也可以用-表示范围,[0-9]就和[0123456789]是一个意思  | 
  [a-z]  |   s  |   True  |   同样的如果要匹配所有的小写字母,直接用[a-z]就可以表示  | 
  [A-Z]  |   B  |   True  |   [A-Z]就表示所有的大写字母  | 
  [0-9a-fA-F]  |   e  |   True  |   可以匹配数字,大小写形式的a~f,用来验证十六进制字符  | 
4、字符:
| 元字符 | 匹配内容 | 
| . | 匹配除换行符以外的任意字符 | 
| \w | 匹配字母或数字或下划线 | 
| \s | 匹配任意的空白符 | 
| \d | 匹配数字 | 
| \n | 匹配一个换行符 | 
| \t | 匹配一个制表符 | 
| \b | 匹配一个单词的结尾 | 
| ^ | 匹配字符串的开始 | 
| $ | 匹配字符串的结尾 | 
| \W | 匹配非字母或数字或下划线 | 
| \D | 匹配非数字 | 
| \S | 匹配非空白符 | 
| a|b | 匹配字符a或字符b | 
| () | 匹配括号内的表达式,也表示一个组 | 
| [...] | 匹配字符组中的字符 | 
| [^...] | 匹配除了字符组中字符的所有字符 | 
例:
([abc][123])+ 
5、量词:
| 量词 | 用法说明 | 
| * | 重复零次或更多次,贪婪匹配 | 
| + | 重复一次或更多次 | 
| ? | 重复零次或一次,惰性匹配 | 
| {n} | 重复n次 | 
| {n, } | 重复n次,或更多次 | 
| {n, m} | 重复n次到m次 | 
说明:*号、+号和?号三者之间的关系。这个量词只约束之前紧贴这它的一个字符。
在linux命令中,我们需要将{}符号进行转义,Shell才能识别。例如:
grep -n 'go\{2,\}g' regular_express.txt
grep -n 'go\{2,5\}g' regular_express.txt
egrep -n 'go{2,}g' regular_express.txt
egrep -n 'go{2,5}g' regular_express.txt
 
 
6、.^$
| 正则 | 待匹配字符 | 匹配 结果  | 说明 | 
| 海. | 海燕海娇海东 | 海燕海娇海东 | 匹配所有"海."的字符 | 
| ^海. | 海燕海娇海东 | 海燕 | 只从开头匹配"海." | 
| 海.$ | 海燕海娇海东 | 海东 | 只匹配结尾的"海.$" | 
7、*+?{}
| 正则 | 待匹配字符 | 匹配 结果  | 说明 | 
| 李.? | 李杰和李莲英和李二棍子 |   李杰  |   ?表示重复零次或一次,即只匹配"李"后面一个任意字符  | 
| 李.* | 李杰和李莲英和李二棍子 | 李杰和李莲英和李二棍子 |  *表示重复零次或多次,即匹配"李"后面0或多个任意字符  | 
| 李.+ | 李杰和李莲英和李二棍子 | 李杰和李莲英和李二棍子 |  +表示重复一次或多次,即只匹配"李"后面1个或多个任意字符  | 
| 李.{1,2} | 李杰和李莲英和李二棍子 |   李杰和  |  {1,2}匹配1到2次任意字符  | 
| 正则 | 待匹配字符 | 匹配 结果  | 说明 | 
| 李.*? | 李杰和李莲英和李二棍子 | 李 李 李  | 惰性匹配 | 
说明:?是非贪婪。?放在量词后面就是非贪婪匹配。上图说明:*号是能重复零次或者更多次,加了?号,就是非贪婪匹配,就是惰性匹配,只匹配零次。.号是代表任意字符,在李字字符后只有个任意字符,惰性匹配让这个任意字符只匹配零次,所以是任意字符不显示。那就只显示李字字符。
8、字符集[] [^]:
| 正则 | 待匹配字符 | 匹配 结果  | 说明 | 
| 李[杰莲英二棍子]* | 李杰和李莲英和李二棍子 |   李杰  |   表示匹配"李"字后面[杰莲英二棍子]的字符任意次  | 
| 李[^和]* | 李杰和李莲英和李二棍子 |   李杰  |  表示匹配一个不是"和"的字符任意次  | 
| [\d] | 456bdha3 |   4  |  表示匹配任意一个数字,匹配到4个结果  | 
| [\d]+ | 456bdha3 |   456  |  表示匹配任意个数字,匹配到2个结果  | 
9、分组() 与 或 | [^]:
身份证号码是一个长度为15或18个字符的字符串,如果是15位则全部由数字组成,首位不能为0;如果是18位,则前17位全部是数字,末位可能是数字或x,下面我们尝试用正则来表示:
| 正则 | 待匹配字符 | 匹配 结果  | 说明 | 
| ^[1-9]\d{13,16}[0-9x]$ | 110101198001017032 |   110101198001017032  | 表示可以匹配一个正确的身份证号 | 
| ^[1-9]\d{13,16}[0-9x]$ | 1101011980010170 |   1101011980010170  |  表示也可以匹配这串数字,但这并不是一个正确的身份证号码,它是一个16位的数字  | 
| ^[1-9]\d{14}(\d{2}[0-9x])?$ | 1101011980010170 |   False  |  现在不会匹配错误的身份证号了
()表示分组,将\d{2}[0-9x]分成一组,就可以整体约束他们出现的次数为0-1次  | 
| ^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ | 110105199812067023 |   110105199812067023  |  表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}  | 
10、转义符:
| 正则 | 待匹配字符 | 匹配 结果  | 说明 | 
| \n | \n | False |  因为在正则表达式中\是有特殊意义的字符,所以要匹配\n本身,用表达式\n无法匹配  | 
| \\n | \n | True |  转义\之后变成\\,即可匹配  | 
| "\\\\n" | '\\n' | True |  如果在python中,字符串中的'\'也需要转义,所以每一个字符串'\'又需要转义一次  | 
| r'\\n' | r'\n' | True |  在字符串之前加r,让整个字符串不转义  | 
说明:r就是real的意思,就是真实的意思,不转义。
11、贪婪匹配:
| 正则 | 待匹配字符 | 匹配 结果  | 说明 | 
| <.*> |   <script>...<script>  | <script>...<script> |  默认为贪婪匹配模式,会匹配尽量长的字符串  | 
| <.*?> | r'\d' |    <script>  |  加上?为将贪婪匹配模式转为非贪婪匹配模式,会匹配尽量短的字符串  | 
12、几个常用的贪婪模式:
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
13、.*?的用法:
. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在:
.*?x就是取前面任意长度的字符,直到一个x出现



















