編碼

發(fā)布時(shí)間:2023-09-09
coding編碼定義在計(jì)算機(jī)硬件中,編碼(coding)是在一個(gè)主題或單元上為數(shù)據(jù)存儲,管理和分析的目的而轉(zhuǎn)換信息為編碼值(典型地如數(shù)字)的過程。在軟件中,編碼意味著邏輯地使用一個(gè)特定的語言如c或c++來執(zhí)行一個(gè)程序。在密碼學(xué)中,編碼是指在編碼或密碼中寫的行為。
將數(shù)據(jù)轉(zhuǎn)換為代碼或編碼字符,并能譯為原數(shù)據(jù)形式。是計(jì)算機(jī)書寫指令的過程,程序設(shè)計(jì)中的一部分。在地圖自動制圖中,按一定規(guī)則用數(shù)字與字母表示地圖內(nèi)容的過程,通過編碼,使計(jì)算機(jī)能識別地圖的各地理要素。
n位二進(jìn)制數(shù)可以組合成2的n次方個(gè)不同的信息,給每個(gè)信息規(guī)定一個(gè)具體碼組,這種過程也叫編碼。
數(shù)字系統(tǒng)中常用的編碼有兩類,一類是二進(jìn)制編碼,另一類是二—十進(jìn)制編碼。漢字的編碼體系1.a(chǎn)scii與binary
我們?nèi)粘=佑|到的文件分ascii和binary兩種。ascii是“美國信息交換標(biāo)準(zhǔn)編碼”的英文字頭縮寫,可稱之為“美標(biāo)”。美標(biāo)規(guī)定了用從0到127的128個(gè)數(shù)字來代表信息的規(guī)范編碼,其中包括33個(gè)控制碼,一個(gè)空格碼,和94個(gè)形象碼。形象碼中包括了英文大小寫字母,阿拉伯?dāng)?shù)字,標(biāo)點(diǎn)符號等。我們平時(shí)閱讀的英文電腦文本,就是以形象碼的方式傳遞和存儲的。美標(biāo)是國際上大部分大小電腦的通用編碼。
然而電腦中的一個(gè)字符大都是用一個(gè)八位數(shù)的二進(jìn)制數(shù)字表示。這樣每一字符便可能有256個(gè)不同的數(shù)值。由于美標(biāo)只規(guī)定了128個(gè)編碼,剩下的另外128個(gè)數(shù)碼沒有規(guī)范,各家用法不一。另外美標(biāo)中的33個(gè)控制碼,各廠家用法也不盡一致。這樣我們在不同電腦間交換文件的時(shí)候,就有必要區(qū)分兩類不同的文件。第一類文件中每一個(gè)字都是美標(biāo)形象碼或空格碼。這類文件稱為“美標(biāo)文本文件”(ascii text files),或略為“文本文件”,通常可在不同電腦系統(tǒng)間直接交換。第二類文件,也就是含有控制碼或非美標(biāo)碼的文件,通常不能在不同電腦系統(tǒng)間直接交換。這類文件有一個(gè)通稱,叫“二進(jìn)制文件”(binary files)。
2.國標(biāo)、區(qū)位、“準(zhǔn)國標(biāo)”
“國標(biāo)”是“中華人民共和國國家標(biāo)準(zhǔn)信息交換用漢字編碼”的簡稱。國標(biāo)表(基本表)把七千余漢字、以及標(biāo)點(diǎn)符號、外文字母等,排成一個(gè)94行、94列的方陣。方陣中每一橫行叫一個(gè)“區(qū)”,每個(gè)區(qū)有九十四個(gè)“位”。一個(gè)漢字在方陣中的坐標(biāo),稱為該字的“區(qū)位碼”。例如“中”字在方陣中處于第54區(qū)第48位,它的區(qū)位碼就是5448。
其實(shí)94這個(gè)數(shù)字。它是美標(biāo)中形象碼的總數(shù)。國標(biāo)表沿用這個(gè)數(shù)字,本意大概是要用兩個(gè)美標(biāo)形象符代表一個(gè)漢字。由于美標(biāo)形象符的編碼是從33到126,漢字區(qū)、位碼如果各加上32,就會與美標(biāo)形象碼的范圍重合。如上例“中”字區(qū)、位碼加上32后,得86,80。這兩個(gè)數(shù)字的十六進(jìn)制放在一起得5650,稱為該字的“國標(biāo)碼”,而與其相對應(yīng)的兩個(gè)美標(biāo)符號,vp,也就是“中”字的“國標(biāo)符”了。
這樣就產(chǎn)生了一個(gè)如何區(qū)分國標(biāo)符與美標(biāo)符的問題。在一個(gè)中英文混用的文件里,“vp”到底代表“中”字呢,還是代表某個(gè)英文字頭縮寫?電子工業(yè)部第六研究所開發(fā)ccdos的時(shí)候,使用了一個(gè)簡便的解決方案:把國標(biāo)碼的兩個(gè)數(shù)字各加上128,上升到非美標(biāo)碼的位置。(改變后的國標(biāo)碼,習(xí)慣上仍叫“國標(biāo)”。)
這個(gè)方案固然解決了原來的問題,可是新的問題隨之產(chǎn)生。中文文件成了“二進(jìn)制文件”,既不能可靠地在不同電腦系統(tǒng)間交換,也不與市場上大部分以美標(biāo)符號為設(shè)計(jì)對象的軟件兼容。
為了區(qū)分以上兩種“國標(biāo)”,我們把原與美標(biāo)形象碼重合的國標(biāo)碼稱為“純國標(biāo)” ,而把ccdos加上128的國標(biāo)碼稱為“準(zhǔn)國標(biāo)”。
3.gbk碼:
gbk碼是gb碼的擴(kuò)展字符編碼,對多達(dá)2萬多的簡繁漢字進(jìn)行了編碼,簡體版的win95和win98都是使用gbk作系統(tǒng)內(nèi)碼。
從實(shí)際運(yùn)用來看,微軟自win95簡體中文版開始,系統(tǒng)就采用gbk代碼,它包括了truetype宋體、黑體兩種gbk字庫(北京中易電子公司提供),可以用于顯示和打印,并提供了四種gbk漢字的輸入法。此外,瀏覽器ie4.0簡體、繁體中文版內(nèi)部提供了一個(gè)gbk-big5代碼雙向轉(zhuǎn)換功能。此外,微軟公司為ie提供的語言包中,簡體中文支持(simplified chinese language support kit)的兩種字庫宋體、黑體,也是gbk漢字(珠海四通電腦排版系統(tǒng)開發(fā)公司提供)。其他一些中文字庫生產(chǎn)廠商,也開始提供truetype或postscript gbk字庫。
許多外掛式的中文平臺,如南極星、四通利方(richwin)等,提供gbk碼的支持,包括字庫、輸入法和gbk與其他中文代碼的轉(zhuǎn)化器。
互聯(lián)網(wǎng)方面,許多網(wǎng)站網(wǎng)頁使用gbk代碼。
但是多數(shù)搜索引擎都不能很好的支持gbk漢字搜索,大陸地區(qū)的搜索引擎有些能不完善的支持gbk漢字檢索。
其實(shí),gbk是又一個(gè)漢字編碼標(biāo)準(zhǔn),全稱《漢字內(nèi)碼擴(kuò)展規(guī)范》(chinese internatial code specification),1995年頒布。gb是國標(biāo),k是漢字“擴(kuò)展”的漢語拼音第一個(gè)字母。
gbk向下與gb-2312編碼兼容,向上支持iso 10646.1國際標(biāo)準(zhǔn),是前者向后者過渡的一個(gè)承啟標(biāo)準(zhǔn)。
gbk規(guī)范收錄了iso 10646.1中的全部cjk漢字和符號,并有所補(bǔ)充。具體包括:gb 2312中的全部漢字、非漢字符號;gb 13000.1中的其他cjk漢字。以上合計(jì)20902個(gè)gb化漢字;《簡化總表中》未收入gb 13000.1的52個(gè)漢字;《康熙字典》以及《辭?!分形幢皇杖雊b 13000.1的28個(gè)部首及重要構(gòu)件;13個(gè)漢字結(jié)構(gòu)符;big-5中未被gb 2312收入、但存在于gb 13000.1的139個(gè)圖形符號;gb 12345增補(bǔ)的6個(gè)拼音符號;gb 12345增補(bǔ)的19個(gè)豎排圖形符號(gb 12345較gb 2312增補(bǔ)豎排標(biāo)點(diǎn)符號29個(gè),其中10個(gè)未被gb 13000.1收入,故gbk亦不收);從gb 13000.1的cjk兼容區(qū)挑選出的21個(gè)漢字;gb 13000.1收入的31個(gè)ibm os/2專用符號。gbk亦采用雙字節(jié)表示,總體編碼范圍為0x8140~0xfefe之間,首字節(jié)在0x81~0xfe之間,尾字節(jié)在0x40~0xfe之間,剔除0x××7f一條線,總計(jì)23940個(gè)碼位,共收入21886個(gè)漢字和圖形符號,其中漢字(包括部首和構(gòu)件)21003個(gè),圖形符號883個(gè)。
4.big5碼:
big5碼是針對繁體漢字的漢字編碼,目前在臺灣、香港的電腦系統(tǒng)中得到普遍應(yīng)用。big5碼的編碼范圍參考下文。
5.hz碼:
hz碼是在internet上廣泛使用的一種漢字編碼?!癶z”方案的特點(diǎn),是以“純國標(biāo)”的中文與美標(biāo)碼混用。那么“hz”是怎樣區(qū)分國標(biāo)符和美標(biāo)符的呢?答案其實(shí)也很簡單:當(dāng)一串美標(biāo)碼中間插入一段國標(biāo)碼的時(shí)候,我們便在國標(biāo)碼的前面加上~,后面加上~。這些附加碼分別叫“逃出碼”和“逃入碼”。 由于這些附加碼本身也是美標(biāo)形象碼,整個(gè)文件就儼然是一個(gè)美標(biāo)文本文件,可以安然地 在電腦網(wǎng)上傳遞,也和大部分英文文本處理軟件兼容。
6.iso-2022cjk碼:
iso-2022是國際標(biāo)準(zhǔn)組織(iso)為各種語言字符制定的編碼標(biāo)準(zhǔn)。采用二個(gè)字節(jié)編碼,其中漢語編碼稱iso-2022 cn,日語、韓語的編碼分別稱jp、kr。一般將三者合稱cjk碼。目前cjk碼主要在internet網(wǎng)絡(luò)中使用。
7.ucs 和 iso 10646:
1993年,國際標(biāo)準(zhǔn)iso10646 定義了通用字符集 (universal character set, ucs)。 ucs 是所有其他字符集標(biāo)準(zhǔn)的一個(gè)超集。它保證與其他字符集是雙向兼容的。就是說, 如果你將任何文本字符串翻譯到 ucs格式,然后再翻譯回原編碼, 你不會丟失任何信息。
ucs 包含了用于表達(dá)所有已知語言的字符。不僅包括拉丁語,希臘語,斯拉夫語,希伯來語,阿拉伯語,亞美尼亞語和喬治亞語的描述, 還包括中文,日文和韓文這樣的象形文字,以及平假名,片假名,孟加拉語, 旁遮普語果魯穆奇字符(gurmukhi), 泰米爾語, 印.埃納德語(kannada),malayalam,泰國語, 老撾語, 漢語拼音(bopomofo), hangul,devangari,gujarati, oriya,telugu 以及其它語種。對于還沒有加入的語言, 由于正在研究怎樣在計(jì)算機(jī)中最好地編碼它們, 因而最終它們都將被加入。這些語言包括tibetian,高棉語,runic(古代北歐文字),埃塞俄比亞語, 其他象形文字,以及各種各樣的印-歐語系的語言,還包括挑選出來的藝術(shù)語言比如 tengwar,cirth 和 克林貢語(klingon)。ucs 還包括大量的圖形的,印刷用的,數(shù)學(xué)用的和科學(xué)用的符號,包括所有由 tex,postscript, ms-dos,ms-windows, macintosh, ocr 字體, 以及許多其他字處理和出版系統(tǒng)提供的字符。
iso 10646 定義了一個(gè) 31 位的字符集。 然而, 在這巨大的編碼空間中, 迄今為止只分配了前 65534 個(gè)碼位 (0x0000 到 0xfffd)。這個(gè)ucs的16位子集稱為基本多語言面 (basic multilingual plane, bmp)。 將被編碼在16位bmp以外的字符都屬于非常特殊
上一個(gè):了解原裝正品norgren接頭(提供最優(yōu)質(zhì)的價(jià)格及服務(wù))
下一個(gè):菊花盆栽技術(shù)資料

由于對方隱私設(shè)置,你無法關(guān)注他(抖音被對方拉黑教你一招挽回)
mac和windows是什么(mac版本和windows有什么區(qū)別)
win10cmd獲得管理員權(quán)限(cmd獲取管理員權(quán)限命令密碼)
t440s硬盤(thinkpad t440p硬盤規(guī)格)
釘釘日報(bào)怎么寫才好(釘釘日報(bào)怎么寫范文)
分別介紹烏哺雞竹和花哺雞竹
美國ab直流微型 (m12) 連接線和預(yù)制接插線bulletin 889
云電腦pc端免費(fèi)(電腦版免費(fèi)云電腦)
.手機(jī)的域名怎么注冊?.手機(jī)的域名擁有哪些優(yōu)勢?
茶香熏鴨
十八禁 网站在线观看免费视频_2020av天堂网_一 级 黄 色 片免费网站_绝顶高潮合集Videos