日韩一区视频精品无高清在线观,欧美性受xxxx视频,亚洲av久播在线播放青青尤物电,久久国产精品亚洲77777,亚洲精品资源

采集器:常用正則表達(dá)式語(yǔ)法

正則表達(dá)式是一種表達(dá)文本模式(即字符串結(jié)構(gòu))的方法,有點(diǎn)像字符串的模板,常常用作按照“給定模式”匹配文本的工具,簡(jiǎn)單概括就是模糊匹配特定內(nèi)容。

比如,正則表達(dá)式給出一個(gè)正整數(shù)的模式,然后用它來(lái)確定一個(gè)字符串是否為正整數(shù),正則:[1-9]\d*

數(shù)據(jù)采集器一般都支持使用正則語(yǔ)法來(lái)提取數(shù)據(jù)。簡(jiǎn)數(shù)采集器也支持各種正則語(yǔ)法,并內(nèi)置了很多常見(jiàn)正則提取的表達(dá)式,用戶只需要點(diǎn)需要的按鈕,即可填入正則表達(dá)式。常見(jiàn)有:日期、IP、鏈接URL、email、身份證號(hào)等等。


常用的元字符

有特殊含義,不代表字面的意思;

1、點(diǎn)字符(.)

匹配除回車(chē)(\r)、換行(\n) 、行分隔符和段分隔符以外的所有字符。


2、位置字符

^ 表示字符串的開(kāi)始位置

$ 表示字符串的結(jié)束位置


3、選擇符(|)

豎線符號(hào)(|)在正則表達(dá)式中表示“或關(guān)系”(OR),即a|b表示匹配a或b。


4、轉(zhuǎn)義符
正則模式中,需要用斜杠轉(zhuǎn)義的,一共有12個(gè)字符:^、 .、 [、 $、 (、 )、 |、 *、 +、 ?、 {和\\。


5、預(yù)定義模式

    \d 匹配0-9之間的任一數(shù)字,相當(dāng)于[0-9];

    \D 匹配所有0-9以外的字符,相當(dāng)于[^0-9];

    \w 匹配任意的字母、數(shù)字和下劃線,相當(dāng)于[A-Za-z0-9_];

    \W 除所有字母、數(shù)字和下劃線以外的字符,相當(dāng)于[^A-Za-z0-9_];

    \s 匹配空格(包括制表符、空格符、斷行符等),相等于[\t\r\n\v\f];

    \S 匹配非空格的字符,相當(dāng)于[^\t\r\n\v\f];


6、量詞符

    ? 問(wèn)號(hào)表示某個(gè)模式出現(xiàn)0次或1次;

    * 星號(hào)表示某個(gè)模式出現(xiàn)0次或多次;  

    + 加號(hào)表示某個(gè)模式出現(xiàn)1次或多次;


簡(jiǎn)數(shù)采集支持使用的正則表達(dá)式