phputf8漢字個數,pythonutf8漢字占幾個位元組

本文目錄一覽：

1、PHP問題,我用PHP寫了一個留言板,用的是UTF-8的編碼,但是為什麼輸入一個漢字等於3個字母
2、PHP如何獲取中文字元串長度 utf8
3、php strlen utf8一個中文算3個位元組嗎？

PHP問題,我用PHP寫了一個留言板,用的是UTF-8的編碼,但是為什麼輸入一個漢字等於3個字母

漢字在UTF-8下是佔3個位元組

mb_strlen ( string str [, string encoding] )

獲取的是有幾個字元，將漢字都當成一個字元來計算

那數字和英文也都是一個字元來計算

mb_strlen($_POST[‘xx’])3

就是字元數少於3，也就是你自己說的意思：不管是數字還是漢字都要少於3個

PHP如何獲取中文字元串長度 utf8

PHP對中文字元串的處理一直困擾於剛剛接觸PHP開發的新手程序員。下面簡要的剖析一下PHP對中文字元串長度的處理：

PHP自帶的函數如strlen()、mb_strlen()都是通過計算字元串所佔位元組數來統計字元串長度的，一個英文字元佔1位元組。例：

$enStr = 『Hello,China!』;

echo strlen($enStr); // 輸出：12

而中文則不然，做中文網站一般會選擇兩種編碼：gbk/gb2312或是utf-8。utf-8能兼容更多的字元，所以受到很多站長的喜愛。gbk與utf-8對中文的編碼不同，導致中文在gbk與utf-8編碼下所佔位元組也有差異。

gbk編碼下每個中文字元所佔位元組為2，例：

$zhStr = 『您好，中國！』;

echo strlen($zhStr); // 輸出：12

utf-8編碼下每個中文字元所佔位元組為3，例：

$zhStr = 『您好，中國！』;

echo strlen($zhStr); // 輸出：18

那麼如何計算這組中文字元串的長度呢？有人可能會說gbk下獲取中文字元串長度除以2，utf-8編碼下除以3不就行了嗎？但是您要考慮字元串並不老實，99%的情況會以中英混合的情況出現。

這是WordPress中的一段代碼，主要思想就是先用正則將字元串分解為個體單元，然後再計算單元的個數即字元串的長度，代碼如下（只能處理utf-8編碼下的字元串）：

$zhStr = 『您好，中國！』;

$str = 『Hello,中國！』;

// 計算中文字元串長度

function utf8_strlen($string = null) {

// 將字元串分解為單元

preg_match_all(「/./us」, $string, $match);

// 返回單元個數

return count($match[0]);

}

echo utf8_strlen($zhStr); // 輸出：6

echo utf8_strlen($str); // 輸出：9

php strlen utf8一個中文算3個位元組嗎？

utf8是變長編碼, 不一定是3位元組, 可能是2~3, 當然ASCII字元還是1位元組.gbk也是變長編碼, 非ASCII的2位元組, ASCII還是1位元組.這兩個編碼對於非ASCII字元, 都是多位元組的, 並且多位元組字元每個位元組都是127的, 也就是負數(最高位是1).另外, PHP里的strlen不是依靠判斷字元串結尾的, 因為PHP是腳本語言, 它的字元串和C++的string是一樣的, 將存儲的位元組個數當作字元串長度.另外, PHP里想數數有多少個位元組用strlen, 想數數有多少個字元, 用mb系列函數, 自己去了解一下.還有些需求, 比如字元串匹配查找之類的, gbk是存在雙位元組匹配問題的, 兩個連續漢字的中間2個位元組可能被誤認為其他字元, 所以不能用strstr之類的位元組匹配函數(PHP里是純位元組匹配的, 不關心), 但utf-8是可以的, 它不會有類似的衝突, 另外最好的做法當然還是用mb系列, 安全可靠, 而且還支持猜編碼功能.

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/150645.html

phputf8漢字個數,pythonutf8漢字占幾個位元組

本文目錄一覽：

PHP問題,我用PHP寫了一個留言板,用的是UTF-8的編碼,但是為什麼輸入一個漢字等於3個字母

PHP如何獲取中文字元串長度 utf8

php strlen utf8一個中文算3個位元組嗎？

相關推薦

發表回復