本文目錄一覽:
PHP正則表達式的使用技巧
PHP正則表達式的定義
用於描述字元排列和匹配模式的一種語法規則 它主要用於字元串的模式分割 匹配 查找及替換操作
PHP中的正則函數
PHP中有兩套正則函數 兩者功能差不多 分別為
一套是由PCRE(Perl Compatible Regular Expression)庫提供的 使用 preg_ 為前綴命名的函數
一套由POSIX(Portable Operating System Interface of Unix )擴展提供的 使用以 ereg_ 為前綴命名的函數 (POSIX的正則函數庫 自PHP 以後 就不在推薦使用 從PHP 以後 就將被移除)
由於POSIX正則即將推出歷史舞台 並且PCRE和perl的形式差不多 更利於我們在perl和php之間切換 所以這裡重點介紹PCRE正則的使用
PCRE正則表達式
PCRE全稱為Perl Compatible Regular Expression 意思是Perl兼容正則表達式
在PCRE中 通常將模式表達式(即正則表達式)包含在兩個反斜線 / 之間 如 /apple/
正則中重要的幾個概念有 元字元 轉義 模式單元(重複) 反義 引用和斷言 這些概念都可以在文章[ ]中輕鬆的理解和掌握
常用的元字元(Meta character)
元字元 說明
/A 匹配字元串串首的原子
/Z 匹配字元串串尾的原子
/b 匹配單詞的邊界 //bis/ 匹配頭為is的字元串 /is/b/ 匹配尾為is的字元串 //bis/b/ 定界
/B 匹配除單詞邊界之外的任意字元 //Bis/ 匹配單詞 This 中的 is
/d 匹配一個數字 等價於[ ]
/D 匹配除數字以外任何一個字元 等價於[^ ]
/w 匹配一個英文字母 數字或下劃線 等價於[ a zA Z_]
/W 匹配除英文字母 數字和下劃線以外任何一個字元 等價於[^ a zA Z_]
/s 匹配一個空白字元 等價於[/f/t/v]
/S 匹配除空白字元以外任何一個字元 等價於[^/f/t/v]
/f 匹配一個換頁符等價於 /x c 或 /cL
匹配一個換行符 等價於 /x a 或 /cJ
匹配一個回車符等價於/x d 或 /cM
/t 匹配一個製表符 等價於 /x /或/cl
/v 匹配一個垂直製表符 等價於/x b或/ck
/oNN 匹配一個八進位數字
/xNN 匹配一個十六進位數字
/cC 匹配一個控制字元
模式修正符(Pattern Modifiers)
模式修正符在忽略大小寫 匹配多行中使用特別多 掌握了這一個修正符 往往能解決我們遇到的很多問題
i -可同時匹配大小寫字母
M -將字元串視為多行
S -將字元串視為單行 換行符做普通字元看待 使 匹配任何字元
X -模式中的空白忽略不計
U -匹配到最近的字元串
e -將替換的字元串作為表達使用
格式 /apple/i匹配 apple 或 Apple 等 忽略大小寫 /i
PCRE的模式單元
// 提取第一位的屬性
/^/d{ } ([/W])/d{ }// /d{ }$匹配 / / 等字元串 但上述正則表達式不匹配 / 的格式 這是因為模式 [/W] 的結果 / 已經被存儲 下個位置 / 引用時 其匹配模式也是字元 /
當不需要存儲匹配結果時使用非存儲模式單元 (? )
例如/(?:a|b|c)(D|E|F)// g/ 將匹配 aEEg 在一些正則表達式中 使用非存儲模式單元是必要的 否則 需要改變其後引用的順序 上例還可以寫成/(a|b|c)(C|E|F)/ g/
PCRE正則表達式函數
以下為引用的內容
preg_match()和preg_match_all() preg_quote() preg_split() preg_grep() preg_replace()
函數的具體使用 我們可以通過PHP手冊來找到 下面分享一些平時積累的正則表達式
匹配action屬性
以下為引用的內容
$str = ; $match = ; preg_match_all( //s+action=/ (?!)( *?)/ /s/ $str $match); print_r($match);
在正則中使用回調函數
以下為引用的內容
/** * replace some string by callback function * */ function callback_replace() { $url = ; $str = ; $str = preg_replace ( /(?=/saction=/ )(?!)( *?)(?=/ /s)/e search(/$url // ) $str ); echo $str; } function search($url $match){ return $url / $match; }
帶斷言的正則匹配
以下為引用的內容
$match = ; $str = xxxxxx cn bold font paragraph text
; preg_match_all ( /(?=(/w{ })) *(?=/// )/ $str $match ); echo 匹配沒有屬性的HTML標籤中的內容 ; print_r ( $match );
替換HTML源碼中的地址
以下為引用的內容
$form_ = preg_replace ( /(?=/saction=/ |/ssrc=/ |/s)(?!|javascript)( *?)(?=/ /s)/e add_url(/$url / // / ) $form_ );
lishixinzhi/Article/program/PHP/201311/21027
PHP函數preg_match_all正則表達式的基本使用詳細解析
了解正則表達式之前,須要掌握一些常用的正則表達式的基礎知識,這些如果能記得最好記得,記不住須要用的時候能查到就行,就多個特殊字元,所以說正則表達式玩的就是特殊,具體大家可以查看更加細緻的說明。
preg_match_all函數具體說明大家可以查看PHP手冊,本文運用
preg_match_all用於測試正則表達的效果。
實例代碼:
複製代碼
代碼如下:
$html
=
‘div
id=”biuuu”jb51.net/divdiv
id=”biuuu_2″jb51.net2/divdiv
id=”biuuu_3″jb51.net3/div’;
實例要求:分別將每一個DIV元素的ID和內容取出,如biuuu,biuuu_2,biuuu_3,jb51.net,jb51.net2和jb51.net3(一些常用的抓站要領就是這樣匹配的)
分析:字元串是一個基本的HTML元素,每一個DIV元素對應該一個ID和內容,並且是獨立的,首先考慮如何
取出一個DIV內的ID值和內容,如:jb51.net,然後匹配其它類似的元素。一個DIV中須要取出兩個值,也就是兩個匹配的表達式,第一個表達式用於匹配ID值(biuuu),第二個表達式用於匹配ID的內容(jb51.net),正則表達式常用的表達式運用小括弧,那麼前面的元素將會變成如下形式:
div
id=”(biuuu)”(jb51.net)/div
div
id=”(表達式1)”(表達式2)/div
好,運用如上小括弧把須要匹配的區域執行
了劃分,接下來就是如何
匹配各個表達式內的內容,我們猜想一個ID可能是字母,數字或下劃線,那這就變得基本了,運用中括弧就可以實現,如下:
表達式1:[a-zA-Z0-9_]+
(表示匹配大小寫字母,數字和下劃線)
那如何
匹配表達式2,因為ID的內容可以是任意的字元,但是要留心,不能匹配或字元,因為如果匹配這兩個字元將會把後面運用的DIV都匹配出來,因此須要排除這兩個字元開始的元素,也就是不匹配以或字元,如下:
表達式2:[^]+
(表示不匹配和字元)
這樣,須要匹配的子表達式就實現了,但是還要須要匹配一個
的表達式,要領如下:
表達式:/
‘\”(表達式1)\”‘(表達式2)\/div/
留心其中的雙引號”和/須要運用
\轉義字元轉義,然後把前面兩個表達式放進去,
如下:
‘\”([a-z0-9_]+)\”‘/div
id=\”([a-z0-9_]+)\”([^]+)\/div/
這樣就實現一個匹配每一個DIV元素ID值和內容的正則表達式,然後運用
preg_match_all函數測試如下:
複製代碼
代碼如下:
$html
=
‘div
id=”biuuu”jb51.net/divdiv
id=”biuuu_2″jb51.net2/divdiv
id=”biuuu_3″jb51.net3/div’;
preg_match_all(‘/div\sid=\”([a-z0-9_]+)\”([^]+)\/div/’,$html,$result);
var_dump($result);
結果:
複製代碼
代碼如下:
array(3)
{
[0]=
array(3)
{
[0]=
string(30)
“div
id=”biuuu”jb51.net/div”
[1]=
string(33)
“div
id=”biuuu_2″jb51.net2/div”
[2]=
string(33)
“div
id=”biuuu_3″jb51.net3/div”
}
[1]=
array(3)
{
[0]=
string(5)
“biuuu”
[1]=
string(7)
“biuuu_2”
[2]=
string(7)
“biuuu_3”
}
[2]=
array(3)
{
[0]=
string(8)
“jb51.net”
[1]=
string(9)
“jb51.net2”
[2]=
string(9)
“jb51.net3”
}
}
共有三個表達式,分別顯示每一個表達式匹配的值,並以數組的形式存儲,這樣就把每一個DIV元素的ID和內容取出。運用正則表達式最主要還是要知道須要什麼,然後跟椐須要執行
匹配,並且思路清晰,並適當的藉助preg_match_all函數執行
輸出調試,非常方便。
PHP正則表達式基本函數
在PHP正則表達式中需要轉義的字元如下
$^*()+={}[]|/: ? “
注意 perl風格中表達式要求以/開始和結尾 如 /food/ 表匹配字元 food
perl修飾符如下
i 完成不區分大小寫的搜索
g 查找所有出現(all occurrences 完成全局搜索)
m 將一個字元串視為多行(m就表示多(multiple)) 默認情況下 ^和$字元匹配字元串中的最開始和最末尾 使用m修飾符將使^和$匹配字元串中每行的開始
s 將一個字元串視為一行 忽略其中的所有換行符;它與m修飾符正好相反
x 忽略php正則表達式中的空白和注釋
U 第一次匹配後停止 默認情況下 將找到最後一個匹配字元結果 利用這個修飾符可以在第一次匹配後停止 進而形式循環匹配
元字元說明
利用Perl正則表達式還可以做另一件有用的事情 這就是使用各種元字元來搜索匹配 元字元(metacharacter)就是一個前面有反斜線的字母字元 表示某種特殊含義 以下是一些有用的元字元
A 只匹配字元串開頭
b 匹配單詞邊界
B 匹配單詞邊界之外的任意字元
d 匹配數字字元 它與[ ]相同
D 匹配非數字字元的php正則
s 匹配空白字元
S 匹配非空白字元的php正則
[] 包圍一個字元類 字元類包括 [ ] [a z] [a zA Z] 等類似
() 包圍一個字元分組或定義一個反引用
$ 匹配行尾
^ 匹配行首
* 匹配前面的子表達式零次或多次 要匹配 * 字元 請使用 *
+ 匹配前面的子表達式一次或多次 要匹配 + 字元 請使用 +
? 匹配前面的子表達式零次或一次 或指明一個非貪婪限定符 ?
匹配除換行之外的任何字元
引出下一個元字元
w 匹配任何只包含下劃線和字母數字字元的字元串 它與 [a zA Z _]相同
W 匹配沒有下劃線和字母數字字元的字元串的php正則
Perl風格函數有
array preg_grep(string pattern array input [ flags])
搜索數組中所有元素 返回由與某個模式匹配的所有元素組成的數組
PHP 增加了一個可選參數 flag 它接受一個值 PREG_GREP_INVERT 傳遞此標誌將得到與該模式不匹配的數據元素
int preg_match(string pattern string string [ array matches [ int flags [ int offset]]])
在字元串中搜索模式 如果存在返回TRUE 否則返回FALSE
可選輸入參數matches可以包含搜索模式中包含的子模式的各個部分 默認返回 匹配的字元串 當有()子包圍時 會在數組後面輸出
int preg_match_all(string pattern string string array pattern_array [ int order])
和函數 preg_match一樣 不過 preg_match 只搜索一次 而 preg_match_all 會執行循環搜索 返回所有匹配的結果
mixed preg_replace(mixed pattern mixed replacement mixed str [ int limit])
用replacement替換pattern的所有出現 並返回修改後的結果
可選 limit 指定應當發生多少次匹配 不設置limit或設置為 將替換所有出現的情況
lishixinzhi/Article/program/PHP/201311/21050
正則表達式 PHP
{}中不能使用反向引用,至少不能直接使用,有沒有其他使用方法不祥(可能性比較小)
建議解決方式:
使用如下正則以及判斷
$str=”5aaaaa”;
$ret=preg_match(“/^(\d)(\w)\\2*$/”,$str,$phones);
if($ret==1)
{
if($phones[1]==strlen($phones[0])-1)
{
echo(‘true’);
}
else
{
echo(‘false1’);
}
}
else
{
echo(‘false2’);
}
說明:
先用正則表達式/^(\d)(\w)\\2*$/確定字元串必須為數字開頭,第二個為字元,從第二個字元開始重複直到結束
然後進行條件判斷,因為$phones[1]中存放了第一個字元,因此比較字元串長度就可以了
===========================================
補充:
如果你的這個字元串需要從某個大的正則表達式中的匹配,那麼我建議你用括弧把這個字元串匹配到的結果括起來做一個子模式.
例如:
$str=”(5ab3de)(6cde9gh)”;
$ret=preg_match(“/\(((\d)\w*)\)\(((\d)\w*)\)/”,$str,$phones);
print_r($phones);
這樣$phones[1]表示字元串,$phones[2]表示字元串長度,然後再做判斷.對於雜亂無章的字元串反而簡單用\w*就可以了.
原創文章,作者:HBZCR,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/331287.html