溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Java創(chuàng)建文件時如何指定編碼

發(fā)布時間:2022-08-24 09:56:23 來源:億速云 閱讀:169 作者:iii 欄目:編程語言

這篇文章主要介紹“Java創(chuàng)建文件時如何指定編碼”,在日常操作中,相信很多人在Java創(chuàng)建文件時如何指定編碼問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Java創(chuàng)建文件時如何指定編碼”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

Java創(chuàng)建文件時如何指定編碼

一、問題分析

先去互聯(lián)網(wǎng)上查找答案,結(jié)果如下:

FileInputStream fis=new FileInputStream(“xxxx.txt”);
OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);

上面的代碼大概意思是在寫入文件時,寫入的字符使用UTF-8編碼,和我預(yù)想的不一樣,我想在創(chuàng)建文件的同時指定編碼。像下面這樣,

File myfile = new File("test.txt”, “UTF-8”);
if (!myfile.exists()) myfile.createNewFile();

于是,我去查看Java API 8官方文檔,F(xiàn)ile沒有提供可以指定字符編碼的構(gòu)造函數(shù)。

Java創(chuàng)建文件時如何指定編碼

同時也沒提供set或者get等其他訪問字符字符編碼的方法,說明字符編碼不是文件的固有屬性。像文件創(chuàng)建時間,文件修改時間,是否可讀、可寫、可執(zhí)行,這些都是文件的固有屬性,或者說元信息,它們是文件的一部分。

Java創(chuàng)建文件時如何指定編碼

二、字符編碼

我們知道,計算機中存儲的任何信息都是01串,文字也不例外。

對于字符的處理包括兩個過程:編碼和解碼

編碼:把字符"映射“到01串
解碼:把01串"映射“到字符

不同的字符編碼,例如GBK、UTF-8,編碼和解碼使用的規(guī)則不同。

對于同樣的文本字符串:“中國”,使用UTF-8編碼保存,一般使用三個字節(jié)保存一個漢字,(底層的01字符串的16進制形式)。

Java創(chuàng)建文件時如何指定編碼

使用GBK編碼保存,使用兩個字節(jié)表示一個漢字。

Java創(chuàng)建文件時如何指定編碼

當(dāng)我們在文本編輯器中寫好文字保存時,編輯器會根據(jù)你設(shè)置的字符編碼類型將文本”映射“成01串。

你設(shè)置的字符類型,僅僅是編輯器把文字編碼成成10串的轉(zhuǎn)換規(guī)則而已,并不是文本的屬性。

在編輯器打開文本文件時,顯示的不是底層的01串,而是文字,是因為編輯器使用某種文字編碼,把01串解碼為字符。如果,解碼時,使用的字符編碼和編碼時的一致或者兼容,就可以正確顯示文本。如果解碼時,使用的字符編碼和編碼時的不一致或者不兼容,就會亂碼。

例如,我有一個文本文件使用的是GBK編碼,內(nèi)容是”明月幾時有“,

Java創(chuàng)建文件時如何指定編碼

Java創(chuàng)建文件時如何指定編碼

我使用VS code (微軟的一款非常好用的文本編輯器)打開文件,用術(shù)語說,就是解碼文件。其默認使用的文字編碼是UTF-8,解碼相同。但是,因為我的文本底層是GBK編碼的01串(兩個字節(jié)一個字符),使用UTF-8解碼01串,由于編碼,解碼不一致,必然會導(dǎo)致亂碼。這時,只要手動選擇對應(yīng)的GBK編碼,解碼文件就不會亂碼了。

Java創(chuàng)建文件時如何指定編碼

亂碼也從側(cè)面說明了,字符編碼不是文件的固有屬性。

扯了這么多,就是為了說明這一點:字符編碼就是解碼和編碼時用的規(guī)則,不是文件的固有屬性。

我不禁產(chǎn)生疑惑,為什么當(dāng)初不把字符編碼設(shè)置為文件屬性的一部分呢?

假設(shè)可以設(shè)置,并且設(shè)置為GBK,那么操作系統(tǒng)需要維護改功能。像一個文件是不可寫的,那么有程序試圖寫文件,操作系統(tǒng)會拒絕寫入一樣,操作系統(tǒng)必須寫入的字節(jié)必須是滿足GBK編碼要求,那么每次寫入字節(jié),操作系統(tǒng)都需要檢查該字節(jié)的合法性,這需要非常大的性能開銷,甚至是無法實現(xiàn)的,因為有些特殊字節(jié)即可以表示GBK,也可以表示UTF-8,是有歧義的。在說,做這一些的意義是什么,為了編輯器可以在打開文件的時候,可以根據(jù)編碼屬性選擇正確的編碼嗎?沒有必要,智能的編輯器,可以根據(jù)內(nèi)容的前幾個字節(jié),推斷出你的01串使用了什么編碼。另外,你也可以手動設(shè)置解碼所用的字符編碼。

三 、問題解決

在創(chuàng)建文件的時候,無法指定文件的編碼。在將文字寫入(例如文本編輯器的Ctrl + S 保存,本質(zhì)執(zhí)行的就是寫入操作)文件時,可以選擇將文字轉(zhuǎn)換為01串的編碼規(guī)則。

針對Java程序,代碼如下,正是文章最開始提及的代碼:

FileInputStream fis=new FileInputStream(“xxxx.txt”);
OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);

到此,關(guān)于“Java創(chuàng)建文件時如何指定編碼”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注億速云網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI