一、什麼是Charset
Charset,顧名思義,即字符集。在Java中,Charset則是對一組編碼方案的封裝。編碼方案則包括了肉眼看到的字元和計算機底層存儲的二進位數之間的關聯關係。Charset類可以用於在位元組和字元之間進行轉換,同時它還規定了每種編碼方案中可允許的字符集合。
二、Charset常用API
在Charset中,最常用的API包括了以下幾種:
1. Charset.availableCharsets():獲取所有可用編碼方案的Charset集合。
Map charsets = Charset.availableCharsets(); for (Map.Entry entry : charsets.entrySet()) { System.out.println(entry.getKey() + " - " + entry.getValue()); }
2. Charset.forName():獲取指定的Charset。
Charset charset = Charset.forName("UTF-8");
3. Charset.decode():將位元組序列解碼為字元序列。
Charset charset = Charset.forName("UTF-8"); ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[] { (byte)0xE4, (byte)0xBD, (byte)0xA0, (byte)0xE5, (byte)0xA5, (byte)0xBD }); CharBuffer charBuffer = charset.decode(inputBuffer); System.out.println(charBuffer.toString()); // 輸出:「你好」
4. Charset.encode():將字元序列編碼為位元組序列。
Charset charset = Charset.forName("UTF-8"); CharBuffer charBuffer = CharBuffer.wrap("你好"); ByteBuffer outputBuffer = charset.encode(charBuffer); while (outputBuffer.hasRemaining()) { System.out.printf("%02X ", outputBuffer.get()); } // 輸出:E4 BD A0 E5 A5 BD
三、Charset使用規範
在Charset的使用中,一定要注意編碼方案的正確性,否則會產生亂碼問題。
比如在文件讀寫中,我們常常遇到「編碼不一致」的情況。那麼,如何確保編碼的正確性呢?一種常用的方法是使用InputStreamReader和OutputStreamWriter進行包裝,這兩個類可以將底層的位元組流轉換成字元流,同時自動進行編碼和解碼。
舉個例子,在讀取文件時,我們可以這樣操作:
FileInputStream fis = new FileInputStream("file.txt"); InputStreamReader isr = new InputStreamReader(fis, "UTF-8"); BufferedReader br = new BufferedReader(isr); String line = null; while ((line = br.readLine()) != null) { System.out.println(line); } br.close(); isr.close(); fis.close();
而在寫入文件時,則可以這樣操作:
FileOutputStream fos = new FileOutputStream("file.txt"); OutputStreamWriter osw = new OutputStreamWriter(fos, "UTF-8"); BufferedWriter bw = new BufferedWriter(osw); bw.write("你好"); bw.newLine(); bw.close(); osw.close(); fos.close();
四、常用編碼方案
在實際開發中,UTF-8和GBK是最常用的兩種編碼方案。其中,UTF-8是一種變長的編碼方案,它可以用1~4個位元組表示不同的字元,因此支持全球範圍內的所有語言。而GBK則是一種固定長度的編碼方案,它只能表示中文和少數其他語言的字元。
代碼示例:
Charset utf8 = Charset.forName("UTF-8"); Charset gbk = Charset.forName("GBK"); String s = "你好,世界!"; byte[] utf8Bytes = s.getBytes(utf8); byte[] gbkBytes = s.getBytes(gbk); System.out.println(Arrays.toString(utf8Bytes)); // 輸出:[-28, -67, -96, -27, -91, -67, -17, -68, -120, -27, -91, -67, -16, -90, -96, -28, -72, -106, -27, -91, -81, -25, -85, -80] System.out.println(Arrays.toString(gbkBytes)); // 輸出:[-60, -29, -70, -61, -93, -58, -46, -58, -48, -71, -95, -63]
五、Charset注意點
在Java中,Charset並不是一個線程安全的類,因此在多線程環境下需要進行同步。同時,在進行編碼和解碼時,也應該儘可能少地使用Charset。
此外,Java並沒有規定所有的Charset都必須支持所有的字元,因此在使用Charset時,一定要注意對應的編碼方案是否支持相應的字符集合。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/254871.html