您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)java獲取文本文件字符編碼的方法,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
一、認(rèn)識(shí)字符編碼:
1、Java中String的默認(rèn)編碼為UTF-8,可以使用以下語(yǔ)句獲?。?code>Charset.defaultCharset();
2、Windows操作系統(tǒng)下,文本文件的默認(rèn)編碼為ANSI,對(duì)中文Windows來(lái)說(shuō)即為GBK。例如我們使用記事本程序新建一個(gè)文本文檔,其默認(rèn)字符編碼即為ANSI。
3、Text文本文檔有四種編碼選項(xiàng):ANSI、Unicode(含Unicode Big Endian和Unicode Little Endian)、UTF-8、UTF-16
4、因此我們讀取txt文件可能有時(shí)候并不知道其編碼格式,所以需要用程序動(dòng)態(tài)判斷獲取txt文件編碼。
ANSI :無(wú)格式定義,對(duì)中文操作系統(tǒng)為GBK或GB2312
UTF-8 :前三個(gè)字節(jié)為:0xE59B9E(UTF-8)、0xEFBBBF(UTF-8含BOM)
UTF-16 :前兩字節(jié)為:0xFEFF
Unicode:前兩個(gè)字節(jié)為:0xFFFE
例如:Unicode文檔以0xFFFE開(kāi)頭,用程序取出前幾個(gè)字節(jié)并進(jìn)行判斷即可。
5、Java編碼與Text文本編碼對(duì)應(yīng)關(guān)系:
Java讀取Text文件,如果編碼格式不匹配,就會(huì)出現(xiàn)亂碼現(xiàn)象。所以讀取文本文件的時(shí)候需要設(shè)置正確字符編碼。Text文檔編碼格式都是寫(xiě)在文件頭的,在程序中需要先解析文件的編碼格式,獲得編碼格式后,再以此格式讀取文件就不會(huì)產(chǎn)生亂碼了。
二、舉個(gè)例子:
有一個(gè)文本文件:test.txt
測(cè)試代碼:
/** * 文件名:CharsetCodeTest.java * 功能描述:文件字符編碼測(cè)試 */ import java.io.*; public class CharsetCodeTest { public static void main(String[] args) throws Exception { String filePath = "test.txt"; String content = readTxt(filePath); System.out.println(content); } public static String readTxt(String path) { StringBuilder content = new StringBuilder(""); try { String fileCharsetName = getFileCharsetName(path); System.out.println("文件的編碼格式為:"+fileCharsetName); InputStream is = new FileInputStream(path); InputStreamReader isr = new InputStreamReader(is, fileCharsetName); BufferedReader br = new BufferedReader(isr); String str = ""; boolean isFirst = true; while (null != (str = br.readLine())) { if (!isFirst) content.append(System.lineSeparator()); //System.getProperty("line.separator"); else isFirst = false; content.append(str); } br.close(); } catch (Exception e) { e.printStackTrace(); System.err.println("讀取文件:" + path + "失敗!"); } return content.toString(); } public static String getFileCharsetName(String fileName) throws IOException { InputStream inputStream = new FileInputStream(fileName); byte[] head = new byte[3]; inputStream.read(head); String charsetName = "GBK";//或GB2312,即ANSI if (head[0] == -1 && head[1] == -2 ) //0xFFFE charsetName = "UTF-16"; else if (head[0] == -2 && head[1] == -1 ) //0xFEFF charsetName = "Unicode";//包含兩種編碼格式:UCS2-Big-Endian和UCS2-Little-Endian else if(head[0]==-27 && head[1]==-101 && head[2] ==-98) charsetName = "UTF-8"; //UTF-8(不含BOM) else if(head[0]==-17 && head[1]==-69 && head[2] ==-65) charsetName = "UTF-8"; //UTF-8-BOM inputStream.close(); //System.out.println(code); return charsetName; } }
運(yùn)行結(jié)果:
以上就是java獲取文本文件字符編碼的方法,詳細(xì)使用情況還需要大家自己親自動(dòng)手使用過(guò)才能領(lǐng)會(huì)。如果想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。