博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python标准库01 正则表达式(re包)
阅读量:6545 次
发布时间:2019-06-24

本文共 3451 字,大约阅读时间需要 11 分钟。

python正则表达式基础

简单介绍

正则表达式并不是python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。在提供正则表达式的语言里,正则表达式的语法是一样的,区别只在于不同的贬称语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的的部分。

正则表达式进行匹配的流程

正则表达式引擎“编译”<正则表达式>得到正则表达式对象(正则表达式引擎编译表达式字符串得到的对象,包含应如何进行匹配的信息),正则表达式对象需要匹配的文本进行"匹配",生成匹配结果(正则表达式对象对文本进行匹配后得到的结果,包含了这次成功匹配的信息,如匹配到的字符串、分组以及在文本中的索引)。

匹配大概过程

正则表达式的大致匹配过程是:一次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界,这个过程会稍微有些不同,但也是很好理解的,多看实例多使用几次就能明白。

python支持的正则表达式元字符和语法

语法         说明                                                表达实例        完整匹配的字符串一般字符     匹配自身                                            abc             abc.            匹配任意一个字符(除"\n"外)                          a.c             abc\            转义字符, 使后一个字符改变原来的意思                a\.c            a.c[...]        字符集(字符类)对应位置可以是字符集中任意一个字符    a[bcd]e         abe  ace  adea|b          字符a或字符b   <-等价于-> [ab][0-9]        数字0-9其中一个字符[a-z]        小写字母a-z其中一个字符[A-Z]        大写字母A-Z其中一个字符[^m]         不是字符m---------------------------------------------------------------------------------------------------\d           数字:[0-9]                                         a\dc            a1c\D           非数字:[^\d]                                       a\Dc            abc\s           空白字符:[
<空格>
\t\r\n\f\v] a\sc a c\S 非空白字符:[^\s] a\Sc abc\w 单词字符:[A-Za-z0-9] a\wc abc\W 非单词字符:[^\w] a\Wc a c-------------------------数量词(重复)------------------------------------------------------* 匹配前一个字符0次或无限次(>=0) abc* ab abc abcc abccc ...+ 匹配前一个字符1次或无限次(>=1) abc+ abc abcc abccc ...? 匹配前一个字符0次或1次 abc? ab abc{
m} 匹配前一个字符m次 ab{
2}c abbc{
m,n} 匹配前一个字符m至n次(m<= >=n); m和n可以省略 ab{
1,2}c abc abbc*? +? ?? {
m,n}? 使* + ? {
m,n}变成非贪婪模式------------------------------边界匹配------------------------------------------------------^ 匹配字符串开头(在多行模式中匹配每一行的开头)$ 匹配字符串末尾(在多行模式中匹配每一行的末尾)\A 仅匹配字符串开头 这几种匹配模式有点疑惑??????\Z 仅匹配字符串末尾\b 匹配\w和\W之间\B [^\b]------------------------------逻辑、分组------------------------------------------------------| |代表左右表达式任意匹配一个(类似短路或,先匹配左边) abc|def abc def(...) 被括起来的表达式将作为分组, 从表达式左边开始每遇到 (abc){
2} abcabc 一个分组的左括号'(',编号+1;分组表达式作为一个整体, a(123|456)c a123c a456c 可以后接数量词.表达式中的|仅在该组中有效(?P
...)分组, 除了原有的编号外再指定一个额外的别名 (?P
abc){
2} abcabc\
引用编号为
的分组匹配到的字符串 (\d)abc\1 1abc1 5abc5(?P=name) 引用别名为
的分组匹配到的字符串 (?P
\d)abc(?P=id) 1abc1 5abc5------------------------------特殊构造(不作为分组)---------------------------------------------------(?:...) (...)的不分组版本, 用于使用'|'或后接数量词 (?:abc){ 2} abcabc(?iLmsux) iLmsux的每个字符代表一个匹配模式, 只能用在正则的开头(?i)abc Abc(?#...) #后的内容作为注释被忽略 abc(?#comment)123 abc123(?=...) 之后的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容 a(?=\d) 后面是数字的a(?!...) 之后的字符串内容需要不匹配表达式才能成功匹配,不消耗字符串内容a(?!\d) 后面不是数字的a(?<=...) 之前的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容(?<=\d)a 前面不是数字的a(?

 

 

 

参考:

转载地址:http://vfgdo.baihongyu.com/

你可能感兴趣的文章
关于proxy_pass的参数路径问题
查看>>
Solr环境配置、中文分词、数据库做为索引源及索引操作
查看>>
R导入csv文本的中文乱码问题
查看>>
nagios搭建(三):nagios监控linux主机
查看>>
SSL通信协议运行机制
查看>>
MySQL 授权详解
查看>>
Git 概述
查看>>
LVS 之 集群概念介绍
查看>>
数据库 之 MySQL的索引
查看>>
JS 获取随机颜色
查看>>
删除GoldenGate
查看>>
辞职后,五险一金如何处理
查看>>
全球域名注册商(国际域名)保有量及市场份额(6月1日)
查看>>
时序数据库连载系列: 时序数据库一哥InfluxDB之存储机制解析
查看>>
URI,URL,URN
查看>>
java HTTPClient PostMethod 中文乱码问题解决方法
查看>>
URL特殊字符需转义
查看>>
Horizon7发布完整克隆模式后,无法登录问题
查看>>
No default constructor for entity
查看>>
IBM DS存储多路径
查看>>