正则表达式(基础语法)
Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则
我们抓取到页面源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再合适不过了。
正则的有点:速度快、效率高、准确性高。
正则的缺点:新手上手难度高
不过只要掌握了正则编写的逻辑关系,写出一个提取页面内容的正则其实并不复杂
正则的语法:使用元字符进行排列组合用来匹配字符串 在线测试正则表达式:https://tool,oschina.net/regex/
元字符:具体固定意义的特殊字符
常用元字符:
. 匹配除 换行符 以外的 任意字符 |
量词:控制前面的元字符出现的次数
* 重复0次 或 多次 |