亂碼字符怎么打(亂碼的字體怎么打)

發(fā)布時(shí)間：2023-11-19

本文主要介紹，下面一起看看相關(guān)資訊。
我們?cè)谔幚砦募蛘叱绦蜃址臅r(shí)候，時(shí)不時(shí)會(huì)遇到，而這些是非常容易混淆的。很多時(shí)候cv都會(huì)去查一下，看看有沒(méi)有類似情況的博文。如果有，就用博文的一步步解決。如果找不到他們，很多人會(huì)直接去找emo。實(shí)際上，聽(tīng)起來(lái)很復(fù)雜，但解決起來(lái)并不十分困難。今天，讓我們讓我們談?wù)勅绾谓鉀Q編碼和的問(wèn)題。
什么是編碼？編碼是將信息從一種形式或格式轉(zhuǎn)換成另一種形式或格式的過(guò)程，也稱為計(jì)算機(jī)編程語(yǔ)言的代碼縮寫(xiě)編碼。用預(yù)定的方法將字符、數(shù)字或其它物體編碼成數(shù)字，或?qū)⑿畔⒑蛿?shù)據(jù)轉(zhuǎn)換成規(guī)定的電脈沖信號(hào)。編碼廣泛應(yīng)用于計(jì)算機(jī)、電視、遙控和通訊等領(lǐng)域。編碼是將信息從一種形式或格式轉(zhuǎn)換成另一種形式或格式的過(guò)程。解碼是編碼的逆過(guò)程。
編碼分類在日常發(fā)展中，有許多編碼格式，如gbk、utf8、ascii等。許多人不知道。;不知道這些編碼格式的區(qū)別，只知道編碼和解碼格式是一樣的，就不會(huì)有的問(wèn)題。其實(shí)計(jì)算機(jī)軟件領(lǐng)域的編碼分為兩類，一類是unicode編碼，一類是非unicode編碼。
常見(jiàn)的非unicode編碼包括ascii、gbk、gb18030、iso88591、windows1252等。
我們都知道這個(gè)世界美國(guó)誕生了第一臺(tái)電腦。當(dāng)時(shí)，作者沒(méi)有 t想不了那么多，只考慮了美國(guó)的需要(美國(guó)大概用的是128個(gè)字符)，于是他規(guī)定了當(dāng)時(shí)128個(gè)字符的二進(jìn)制表示方法，也就是一套標(biāo)準(zhǔn)，即ascii，翻譯成美國(guó)的信息交換標(biāo)準(zhǔn)碼。
計(jì)算機(jī)存儲(chǔ)的最小單位是字節(jié)，即8位，7位可以表示128個(gè)字符。在ascii中，最高位設(shè)置為0，其他7位可以用0~127來(lái)表示，其中0~127的每一個(gè)數(shù)字的含義都用ascii編碼來(lái)規(guī)定，基本可以涵蓋鍵盤(pán)上的所有字符。
需要注意的是，ascii中有一些特殊的不可打印字符，常用的不可打印字符有
美國(guó)用ascii碼就夠了，但是世界上那么多國(guó)家，字符和語(yǔ)言都不一樣。因此，各個(gè)國(guó)家的各種計(jì)算機(jī)制造商發(fā)明了各種編碼方法來(lái)表示自己國(guó)家的字符。為了保持與ascii碼的兼容性，最高位一般設(shè)置為1。也就是說(shuō)，最高位為0時(shí)代表標(biāo)準(zhǔn)的ascii碼，為1時(shí)是各個(gè)國(guó)家的擴(kuò)展。開(kāi)發(fā)你自己的字符編碼。在這些擴(kuò)展碼中，西歐國(guó)家流行iso 88591和windows1252，流行g(shù)b2312、gbk和gb18030。這些代碼的區(qū)別就一一介紹了。
iso 88591和windows1252iso 88591，也稱為latin1，用一個(gè)字節(jié)表示一個(gè)字符，其中0~127與ascii相同，128~255有不同的含義。在128~255中，128~159代表一些控制字符，160~255代表一些西歐字符。這些字在國(guó)內(nèi)不常用，我就不一一介紹了。
盡管iso 88591聲稱自己是西歐國(guó)家的統(tǒng)一標(biāo)準(zhǔn)，但它并不。;甚至沒(méi)有歐元符號(hào)()，因?yàn)闅W元符號(hào)出現(xiàn)得晚，而iso 88591標(biāo)準(zhǔn)出現(xiàn)得早。因此，windows1252編碼在實(shí)踐中應(yīng)用更廣泛，與iso 88591基本相同，區(qū)別僅在于128~159這幾個(gè)干數(shù)。html5甚至明確規(guī)定，如果一個(gè)文件聲明了iso 88591編碼，就應(yīng)該被視為windows1252編碼。為什么會(huì)這樣？因?yàn)榇蠖鄶?shù)人不知道。;我不知道iso 88591和windows1252的區(qū)別，當(dāng)他說(shuō)iso 88591時(shí)，他實(shí)際上指的是windows1252，所以這個(gè)標(biāo)準(zhǔn)只是強(qiáng)制性的。windows1252使用這些數(shù)字中的一部分來(lái)表示可打印字符。
相信國(guó)內(nèi)開(kāi)發(fā)者對(duì)gb2312、gbk、gb18030這三種編碼格式都比較熟悉。這三種編碼格式也是漢字顯示的編碼格式。這三種業(yè)態(tài)有什么區(qū)別和聯(lián)系？
gb2312美國(guó)和西歐字符一個(gè)字節(jié)就夠了，中文顯然不夠。第一個(gè)標(biāo)準(zhǔn)是gb2312。gb2312標(biāo)準(zhǔn)主要針對(duì)簡(jiǎn)體中文中的常用字，包括約7000個(gè)漢字和一些生僻字、繁體字。
gb2312總是用兩個(gè)字節(jié)來(lái)表示漢字。在這兩個(gè)字中，最高位是1，如果是0，則認(rèn)為是ascii字符。在這兩個(gè)字節(jié)中，高位字節(jié)范圍為0xa1~0xf7，低位字節(jié)范圍為0xa1~0xfe。
gbkgbk基于gb2312。向后兼容gb2312，也就是說(shuō)gb2312編碼的字符和二進(jìn)制表示在gbk編碼中是完全一樣的。gbk新增了14000多個(gè)漢字，包括繁體字在內(nèi)共約21000個(gè)漢字。
gbk用固定在同一個(gè)體中的兩個(gè)字節(jié)表示，其中上字節(jié)范圍為0x81~0xfe，下字節(jié)范圍為0x40~0x7f和ox80~0xfe。
需要注意這意味著低階字節(jié)從ox40(即64)開(kāi)始，也就是說(shuō)，低階字節(jié)的最高位可能是0。那怎么知道是漢字的一部分還是ascii字符呢？其實(shí)很簡(jiǎn)單，因?yàn)闈h字是用兩個(gè)固定的字節(jié)表示的。在解析二進(jìn)制流時(shí)，如果第一個(gè)字節(jié)的最高位是1，那么下一個(gè)字節(jié)將被讀入并解析為一個(gè)漢字，而不考慮它的最高位。解析后，跳到第三個(gè)字節(jié)繼續(xù)解析。
gb18030gb18030向后兼容gbk，增加了55000多個(gè)字符，共計(jì)76000多個(gè)字符，包括了很多少數(shù)民族字符和中日韓統(tǒng)一字符。
兩個(gè)字節(jié)可以不能代表gb18030中的所有字符。gb18030采用變長(zhǎng)編碼，有的字符是兩個(gè)字節(jié)，有的是四個(gè)字節(jié)。在雙字節(jié)編碼中，字節(jié)表示范圍與gbk相同。在四字節(jié)編碼中，第一個(gè)字節(jié)的值是0x81~0xfe，第二個(gè)字節(jié)的值是0x30~0x39，第三個(gè)字節(jié)的值是0x81~0xfe，第四個(gè)字節(jié)的值是0x30~0x39。
解析二進(jìn)制時(shí)，如何知道兩個(gè)字節(jié)還是四個(gè)字節(jié)代表一個(gè)字符？看第二個(gè)字節(jié)的范圍。如果是0x30~0x39，表示4個(gè)字節(jié)，因?yàn)閮蓚€(gè)字節(jié)碼中的第二個(gè)字節(jié)比這個(gè)大。
unicode編碼如果上面的編碼可以表示中文、英文等所需要的字符，那么世界上就有各種民族語(yǔ)言，每個(gè)國(guó)家都實(shí)現(xiàn)了一套基于ascii的編碼標(biāo)準(zhǔn)，那么就會(huì)有成千上萬(wàn)套編碼。那么世界上沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)嗎？沒(méi)錯(cuò)，這就是unicode編碼！
unicode做了一件事，就是給世界上所有的字符分配了一個(gè)唯一的數(shù)字，范圍從0x000000~0x10eeef，包括110多萬(wàn)。但大多數(shù)常用字符都在0x0000~0xeeef之間，即65536個(gè)數(shù)字以內(nèi)。每個(gè)字符都有一個(gè)unicode數(shù)字，通常用十六進(jìn)制表示，前面有一個(gè)u。大多數(shù)數(shù)字的范圍是從u4e00到u9fff。
簡(jiǎn)單來(lái)說(shuō)，unicode主要做一件事，就是給所有字符分配唯一的數(shù)值。它不 t指定這個(gè)數(shù)字如何對(duì)應(yīng)于二進(jìn)制表示，這與上面介紹的其他編碼不同。其他編碼不僅指定可以表示哪些字符，還指定每個(gè)字符對(duì)應(yīng)的二進(jìn)制是什么，而unicode本身只指定每個(gè)字符的編號(hào)。目前常用的編碼方案有utf8、utf16和utf32。
utf8utf8由可變長(zhǎng)度的字節(jié)表示，每個(gè)字符中使用的字節(jié)數(shù)與其unicode編碼的大小有關(guān)。較小的數(shù)字使用較少的字節(jié)，而較大的數(shù)字使用它們。有很多字節(jié)，使用的字節(jié)數(shù)從1到4不等。小于128，編碼同ascii碼，最高位為0。其他數(shù)字的第一個(gè)字節(jié)有特殊的含義。最高位中幾個(gè)連續(xù)的1表示幾個(gè)字節(jié)，而所有其他字節(jié)都以10開(kāi)始。
如何對(duì)unicod:。
1)對(duì)于編號(hào)從u0000到uffff(常用字符集)的字符，直接用兩個(gè)字節(jié)表示。需要注意的是，u d800~u dbff的編號(hào)實(shí)際上是未定義的。
2)字符值在u10000和u10ffff之間的字符(也叫補(bǔ)充字符集)需要用4個(gè)字節(jié)表示。前兩個(gè)字節(jié)稱為高代理項(xiàng)，范圍從ud800到udbff最后兩個(gè)字節(jié)稱為低代理，范圍是u dc00~u dfff。數(shù)字?jǐn)?shù)和這個(gè)二進(jìn)制表示之間有一個(gè)轉(zhuǎn)換算法，這里就不詳細(xì)介紹了。
區(qū)分兩個(gè)字節(jié)還是四個(gè)字節(jié)代表一個(gè)字符取決于前兩個(gè)字節(jié)的數(shù)字范圍。如果是u d800~u dbff，就是四個(gè)字節(jié)，否則就是兩個(gè)字節(jié)。
utf32最簡(jiǎn)單，是字符數(shù)的整數(shù)二進(jìn)制形式，4個(gè)字節(jié)。
但是有一個(gè)細(xì)節(jié)，就是字節(jié)的順序。如果第一個(gè)字節(jié)是整數(shù)二進(jìn)制中的最高位，最后一個(gè)字節(jié)是整數(shù)二進(jìn)制中的最低位，那么這個(gè)字節(jié)序列稱為大端字節(jié)序，否則就叫小端。樂(lè) 。相應(yīng)的編碼方法分別是utf32be和utf32le。
可以看出，每個(gè)字符用4個(gè)字節(jié)表示，很浪費(fèi)空間，實(shí)際用得更少。
unicode編碼摘要unicode為世界上所有字符提供了一個(gè)統(tǒng)一的編號(hào)，編號(hào)范圍超過(guò)110萬(wàn)，但大多數(shù)字符都在65536以內(nèi)。unicode本身并沒(méi)有規(guī)定如何將這個(gè)數(shù)字映射成二進(jìn)制形式。
ute32/ute16/ute8都在做一件事，就是把unicode數(shù)字對(duì)應(yīng)到二進(jìn)制形式，只是對(duì)應(yīng)的方法不同。utf32用4字節(jié)，utf多用2字節(jié)，少數(shù)用4字節(jié)。它們與ascii編碼不兼容，并且都有字節(jié)順序問(wèn)題。utf8用1~4字節(jié)表示，兼容ascii編碼，1字節(jié)為英文字符，3字節(jié)為中文字符。
編碼轉(zhuǎn)換用統(tǒng)一的unicode編碼，也可以適應(yīng)不同類型的編碼格式，如中文單詞 xi ：
編碼系統(tǒng)
十六進(jìn)制的
編碼系統(tǒng)
十六進(jìn)制的
gbk
cef7
utf8
%u897f
統(tǒng)
\u897f
utf16
897f
不同的編碼格式如何通過(guò)unicode編碼兼容？那么就必須通過(guò)編碼來(lái)轉(zhuǎn)換。我們可以認(rèn)為每種編碼都有一個(gè)映射表來(lái)存儲(chǔ)其唯一的字符編碼和unicod:的一個(gè)字符從a編碼變成b編碼。首先找到字符的a編碼格式，通過(guò)a的映射表找到它的unicode編碼，然后通過(guò)unicode編碼搜索b的映射表找到字符的b編碼格式。通過(guò)這種轉(zhuǎn)換，可以實(shí)現(xiàn)不同編碼格式的兼容。
例如，當(dāng) xi 從gbk換到utf8，先查gb18030unicode的號(hào)碼表得到它的號(hào)碼為\u897f，再查uncod:% u897f。
上面介紹了的根源?，F(xiàn)在讓我們讓我們看看。一般有兩個(gè)原因:一個(gè)是簡(jiǎn)單的錯(cuò)誤分析，一個(gè)是比較復(fù)雜的。在誤差分析的基礎(chǔ)上，還進(jìn)行了編碼轉(zhuǎn)換。
錯(cuò)誤分析一個(gè)英國(guó)人寫(xiě)了一個(gè)windows1252編碼格式的文件，發(fā)給一個(gè)人。然后解碼打開(kāi)了。他看到的最后一份文件是。
在這種情況下，它似乎是，因?yàn)閿?shù)據(jù)是以錯(cuò)誤的查看或解釋的。只要用正確的編碼方法去解讀，是可以糾正的。很多文件編輯器，比如:。
例如，單詞 xi 是gbk，編碼(十六進(jìn)制)是cef7。
這種二進(jìn)制形式被誤認(rèn)為是windows1252編碼被引入并解釋為字符小。
隨后，這個(gè)字符被編碼轉(zhuǎn)換成utf8編碼，形式仍然是\u,但是二進(jìn)制變成了1111111111111111111111111111111111111111111111111111111111111111111111111111111111
這時(shí)，根據(jù)gbk的分析，字符變得。小，而此時(shí)無(wú)論如何切換查看代碼的，這個(gè)二進(jìn)制看起來(lái)都是。
這種情況是產(chǎn)生的主要原因。
這種情況其實(shí)很常見(jiàn)。為了便于統(tǒng)一處理，計(jì)算機(jī)程序往往將所有代碼轉(zhuǎn)換成一種，如utf8。轉(zhuǎn)換的時(shí)候需要知道原代碼是什么，但是可能會(huì)出錯(cuò)。一旦你做錯(cuò)了轉(zhuǎn)換，就會(huì)出現(xiàn)這種。在這種情況下，無(wú)論如何切換觀看編碼模式，都是不可接受的。
對(duì)的解決方法，如果是簡(jiǎn)單的方法，可以先用編輯器試著解析一遍，看看能不能解析回正確的代碼；但是，如果稍微復(fù)雜一點(diǎn)，比如上面提到的錯(cuò)誤分析和轉(zhuǎn)換，編輯器可以 t找不到正確的方法，建議用程序解決；這里，我們使用了被錯(cuò)誤解析為小。讓讓我們找到它的正確編碼:
首先，讓我們讓我們寫(xiě)一個(gè)方法。首先，將所有編碼格式放入一個(gè)數(shù)組(i ll這里簡(jiǎn)單列舉幾個(gè))，然后用一個(gè)循環(huán)來(lái)解析它們，然后從輸出結(jié)果中找出符合原始編碼的字符和對(duì)應(yīng)的編碼。
這里程序是:
最終運(yùn)行結(jié)果是:
最終我們得到的結(jié)果是，字符的原始編碼是gbk，被錯(cuò)誤解析為windows1252，于是我們找到了字符的原始編碼。
根據(jù)這個(gè)程序，可以逆向找到原代碼，因?yàn)槲覀儗?shí)際應(yīng)用的編碼格式是有限的，所以這種暴力的逆向搜索還是很有用的，也很快。
當(dāng)然，能找到的對(duì)應(yīng)原碼都是簡(jiǎn)單的，不是很復(fù)雜的文件。如果對(duì)文件進(jìn)行多次錯(cuò)誤解析和格式轉(zhuǎn)換，反破解原代碼的難度與破解不固定的安全密碼無(wú)異。
通過(guò)本文，我們可以清楚地了解計(jì)算機(jī)軟件編碼的分類，分為非unicode編碼和unicode編碼。非unicode編碼主要基于ascii系統(tǒng)，而utf8是應(yīng)用最廣泛的unicode編碼方案，這些不同的編碼類型可以通過(guò)一定的規(guī)則相互轉(zhuǎn)換。
編碼和解碼不使用同一套編碼格式，會(huì)導(dǎo)致。所以在產(chǎn)生的時(shí)候，我們可以用一些編輯器或者瀏覽器改變編碼找到原來(lái)的格式，可以用程序工具進(jìn)行暴力匹配。這種方法也更直接有效。
了解更多相關(guān)內(nèi)容請(qǐng)關(guān)注本站點(diǎn)。

上一個(gè)：mac如何格式化u盤(pán)，蘋(píng)果系統(tǒng)怎么格式化U盤(pán)
下一個(gè)：普洱茶隨我們一起慢慢變老

戴爾靈越14換硬盤(pán)教程
美國(guó)catrac電纜
購(gòu)房保險(xiǎn)常見(jiàn)問(wèn)題有哪些？
對(duì)伺服系統(tǒng)的基本要求是什么？
榮耀4x進(jìn)不去刷機(jī)模式怎么班，華為榮耀暢玩4x無(wú)法進(jìn)入Recovery
星巴克越多茶館就越重要
4000配游戲電腦(4000元游戲配置)
加拿勒海棗種植及養(yǎng)護(hù)技術(shù)要點(diǎn)
影響光電傳感器正常使用的因素有哪些
RC-01W1693FTE，F(xiàn) 0201 169K現(xiàn)貨購(gòu)買(mǎi),風(fēng)華0201 169KΩ ±1% 1/20W