什么是utf-8編碼?utf-8的編碼規則是什么?
8位Unicode轉換格式(UTF-8)是一種用于編碼各種字符的相對較新的代碼約定。它是字符標識的標準,也是各種編程語言和設備的參考,有助于標準化字母,數字和其他字符的顯示。
在許多情況下,UTF-8取代了一種名為美國信息交換標準碼(ASCII)的舊約定。ASCII處理英語語言文本所需的所有字符,但UTF-8為不使用英語或羅馬字母的其他語言處理更多不同的符號集。UTF-8被認為是與ASCII向后兼容的。
UTF-8編碼規則:
如果只有一個字節則其最高二進制位為0;如果是多字節,其第一個字節從最高位開始,連續的二進制位值為1的個數決定了其編碼的字節數,其余各字節均以10開頭。
UTF-8編碼中的前綴碼起到了很好的區分和標識的作用:
當解碼程序讀取到一個字節的首位為0,表示這是一個單字節編碼的ASCII字符;
當讀取到一個字節的首位為1,表示這是一個非ASCII字符的多字節編碼字符中的某個字節(可能是首字節,也可能是后續字節),接下來若繼續讀取到一個1,則確定為首字節,再繼續讀取直到遇見終結標志0為止,讀取了幾個1,就表示該字符為幾個字節的編碼。
當讀取到一個字節的首位為1,緊接著讀取到一個終結標志0,則該字節顯然是非ASCII字符的后續字節(即非首字節)。
以上就是有關utf-8編碼是什么意思,utf-8編碼的規則介紹。