Linux本編輯器vim顯示utf-8文檔亂碼怎么解決

發(fā)布時(shí)間：2021-09-03 11:06:18 來(lái)源：億速云閱讀：107 作者：chen 欄目：系統(tǒng)運(yùn)維

這篇文章主要介紹“Linux本編輯器vim顯示utf-8文檔亂碼怎么解決”，在日常操作中，相信很多人在Linux本編輯器vim顯示utf-8文檔亂碼怎么解決問(wèn)題上存在疑惑，小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”Linux本編輯器vim顯示utf-8文檔亂碼怎么解決”的疑惑有所幫助！接下來(lái)，請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧！

　　1.相關(guān)基礎(chǔ)知識(shí)介紹

　　在Vim中，有四個(gè)與編碼有關(guān)的選項(xiàng)，它們是：fileencodings、fileencoding、encoding和termencoding。在實(shí)際使用中，任何一個(gè)選項(xiàng)出現(xiàn)錯(cuò)誤，都會(huì)導(dǎo)致出現(xiàn)亂碼。因此，每一個(gè)Vim用戶(hù)都應(yīng)該明確這四個(gè)選項(xiàng)的含義。下面，我們?cè)敿?xì)介紹一下這四個(gè)選項(xiàng)的含義和作用。

　?。?）encoding

　　encoding是Vim內(nèi)部使用的字符編碼方式。當(dāng)我們?cè)O(shè)置了encoding之后，Vim內(nèi)部所有的buffer、寄存器、腳本中的字符串等，全都使用這個(gè)編碼。Vim 在工作的時(shí)候，如果編碼方式與它的內(nèi)部編碼不一致，它會(huì)先把編碼轉(zhuǎn)換成內(nèi)部編碼。如果工作用的編碼中含有無(wú)法轉(zhuǎn)換為內(nèi)部編碼的字符，在這些字符就會(huì)丟失。因此，在選擇 Vim 的內(nèi)部編碼的時(shí)候，一定要使用一種表現(xiàn)能力足夠強(qiáng)的編碼，以免影響正常工作。

　　由于encoding選項(xiàng)涉及到Vim中所有字符的內(nèi)部表示，因此只能在Vim啟動(dòng)的時(shí)候設(shè)置一次。在Vim工作過(guò)程中修改encoding會(huì)造成非常多的問(wèn)題。用戶(hù)手冊(cè)上建議只在 .vimrc中改變它的值，事實(shí)上似乎也只有在 .vimrc中改變它的值才有意義。如果沒(méi)有特別的理由，請(qǐng)始終將encoding設(shè)置為utf-8。為了避免在非UTF-8的系統(tǒng)如Windows下，菜單和系統(tǒng)提示出現(xiàn)亂碼，可同時(shí)做這幾項(xiàng)設(shè)置：

　　set encoding=utf-8

　　set langmenu=zh_CN.UTF-8

　　language message zh_CN.UTF-8

　?。?）termencoding

　　termencoding是Vim用于屏幕顯示的編碼，在顯示的時(shí)候，Vim會(huì)把內(nèi)部編碼轉(zhuǎn)換為屏幕編碼，再用于輸出。內(nèi)部編碼中含有無(wú)法轉(zhuǎn)換為屏幕編碼的字符時(shí)，該字符會(huì)變成問(wèn)號(hào)，但不會(huì)影響對(duì)它的編輯操作。如果termencoding沒(méi)有設(shè)置，則直接使用encoding不進(jìn)行轉(zhuǎn)換。

　　舉個(gè)例子，當(dāng)你在Windows下通過(guò)telnet登錄Linux工作站時(shí)，由于Windows的telnet是GBK編碼的，而Linux下使用UTF-8編碼，你在telnet下的Vim中就會(huì)亂碼。此時(shí)有兩種消除亂碼的方式：一是把Vim的encoding改為gbk，另一種方法是保持encoding為utf-8，把termencoding改為gbk，讓Vim在顯示的時(shí)候轉(zhuǎn)碼。顯然，使用前一種方法時(shí)，如果遇到編輯的文件中含有GBK無(wú)法表示的字符時(shí)，這些字符就會(huì)丟失。但如果使用后一種方法，雖然由于終端所限，這些字符無(wú)法顯示，但在編輯過(guò)程中這些字符是不會(huì)丟失的。

　　對(duì)于圖形界面下的GVim，它的顯示不依賴(lài)TERM，因此termencoding對(duì)于它沒(méi)有意義。在GTK2下的GVim 中，termencoding永遠(yuǎn)是utf-8，并且不能修改。而Windows下的GVim則忽略termencoding的存在。

　?。?）fileencoding

　　當(dāng)Vim從磁盤(pán)上讀取文件的時(shí)候，會(huì)對(duì)文件的編碼進(jìn)行探測(cè)。如果文件的編碼方式和Vim的內(nèi)部編碼方式不同，Vim就會(huì)對(duì)編碼進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換完畢后，Vim會(huì)將fileencoding選項(xiàng)設(shè)置為文件的編碼。當(dāng)Vim存盤(pán)的時(shí)候，如果encoding和fileencoding不一樣，Vim就會(huì)進(jìn)行編碼轉(zhuǎn)換。因此，通過(guò)打開(kāi)文件后設(shè)置fileencoding，我們可以將文件由一種編碼轉(zhuǎn)換為另一種編碼。但是，由前面的介紹可以看出，fileencoding是在打開(kāi)文件的時(shí)候，由Vim進(jìn)行探測(cè)后自動(dòng)設(shè)置的。因此，如果出現(xiàn)亂碼，我們無(wú)法通過(guò)在打開(kāi)文件后重新設(shè)置fileencoding來(lái)糾正亂碼。

　　簡(jiǎn)而言之，fileencoding是Vim中當(dāng)前編輯的文件的字符編碼方式，Vim保存文件時(shí)也會(huì)將文件保存為這種字符編碼方式（不管是否新文件都如此）。

　　（4）fileencodings

　　編碼的自動(dòng)識(shí)別是通過(guò)設(shè)置fileencodings實(shí)現(xiàn)的，注意是復(fù)數(shù)形式。fileencodings是一個(gè)用逗號(hào)分隔的列表，列表中的每一項(xiàng)是一種編碼的名稱(chēng)。當(dāng)我們打開(kāi)文件的時(shí)候，VIM按順序使用fileencodings中的編碼進(jìn)行嘗試解碼，如果成功的話(huà)，就使用該編碼方式進(jìn)行解碼，并將fileencoding設(shè)置為這個(gè)值，如果失敗的話(huà)，就繼續(xù)試驗(yàn)下一個(gè)編碼。

　　因此，我們?cè)谠O(shè)置fileencodings的時(shí)候，一定要把要求嚴(yán)格的、當(dāng)文件不是這個(gè)編碼的時(shí)候更容易出現(xiàn)解碼失敗的編碼方式放在前面，把寬松的編碼方式放在后面。例如，latin1是一種非常寬松的編碼方式，任何一種編碼方式得到的文本，用latin1進(jìn)行解碼，都不會(huì)發(fā)生解碼失敗——當(dāng)然，解碼得到的結(jié)果自然也就是理所當(dāng)然的“亂碼”。因此，如果你把latin1放到了fileencodings的第一位的話(huà)，打開(kāi)任何中文文件都是亂碼也就是理所當(dāng)然的了。

　　以下是網(wǎng)上推薦的一個(gè)fileencodings設(shè)置：

　　set fileencodings=ucs-bom，utf-8，cp936，gb18030，big5，euc-jp，euc-kr，latin1

　　其中，ucs-bom是一種非常嚴(yán)格的編碼，非該編碼的文件幾乎沒(méi)有可能被誤判為ucs-bom，因此放在第一位。

　　utf-8也相當(dāng)嚴(yán)格，除了很短的文件外（例如許多人津津樂(lè)道的GBK編碼的“聯(lián)通”被誤判為UTF-8編碼的經(jīng)典錯(cuò)誤），現(xiàn)實(shí)生活中一般文件是幾乎不可能被誤判的，因此放在第二位。

　　接下來(lái)是cp936和gb18030，這兩種編碼相對(duì)寬松，如果放前面的話(huà)，會(huì)出現(xiàn)大量誤判，所以就讓它們靠后一些。cp936的編碼空間比gb18030小，所以把cp936放在gb18030前面。

　　至于big5、euc-jp和euc-kr，它們的嚴(yán)格程度和cp936差不多，把它們放在后面，在編輯這些編碼的文件的時(shí)候必然出現(xiàn)大量誤判，但這是Vim內(nèi)置編碼探測(cè)機(jī)制沒(méi)有辦法解決的事。由于中國(guó)用戶(hù)很少有機(jī)會(huì)編輯這些編碼的文件，因此我們還是決定把cp936和gb18030放在前面以保證這些編碼的識(shí)別。

　　最后就是latin1了。它是一種極其寬松的編碼，以至于我們不得不把它放在最后一位。不過(guò)可惜的是，當(dāng)你碰到一個(gè)真的latin1編碼的文件時(shí)，絕大部分情況下，它沒(méi)有機(jī)會(huì)fall-back到latin1，往往在前面的編碼中就被誤判了。不過(guò)，正如前面所說(shuō)的，中國(guó)用戶(hù)沒(méi)有太多機(jī)會(huì)接觸這樣的文件。

　　如果編碼被誤判了，解碼后的結(jié)果就無(wú)法被人類(lèi)識(shí)別，于是我們就說(shuō)，這個(gè)文件亂碼了。此時(shí)，如果你知道這個(gè)文件的正確編碼的話(huà)，可以在打開(kāi)文件的時(shí)候使用 ++enc=encoding 的方式來(lái)打開(kāi)文件，如：

　?。篹 ++enc=utf-8 myfile.txt

到此，關(guān)于“Linux本編輯器vim顯示utf-8文檔亂碼怎么解決”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章！

向AI問(wèn)一下細(xì)節(jié)

Linux本編輯器vim顯示utf-8文檔亂碼怎么解決

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽