0%

正则表达式(基础语法)

正则表达式(基础语法)

Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则

我们抓取到页面源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再合适不过了。

正则的有点:速度快、效率高、准确性高。

正则的缺点:新手上手难度高

不过只要掌握了正则编写的逻辑关系,写出一个提取页面内容的正则其实并不复杂

正则的语法:使用元字符进行排列组合用来匹配字符串 在线测试正则表达式:https://tool,oschina.net/regex/

元字符:具体固定意义的特殊字符

常用元字符:

.       匹配除 换行符 以外的 任意字符
\w 匹配 字母 或 数字 或 下划线
\s 匹配任意的空白符
\d 匹配数字
\n 匹配一个换行符
\t 匹配一个制表符

^ 匹配字符串的开始
$ 匹配字符串的结尾

\W 匹配 非字母 或 数字 或 下划线
\D 匹配非数字
\S 匹配非空白字符
a|b 匹配 字符a 或 字符b # 优先前面的
() 匹配括号内的表达式,也表示一个组
[...] 匹配字符组中的字符 #例如 [a-zA-Z0-9]
[^...] 匹配除了字符组中的所有字符

量词:控制前面的元字符出现的次数

*  重复0次 或 多次
+ 至少重复一次 或 多次
? 重复0次 或 多次
{n} 重复 n 次
{n,} 重复n次 或更多次
{n,m} 重复n到m次