電腦內部是如何處理漢字的輸入輸出和儲存過程的？

2018-10-28數碼

要理解漢字是如何被電腦處理的，首先就要理解編碼原理。

其實不光漢字；實質上，電腦內部的一切符號都要借助編碼來輸入輸出。

千字文
作者：周興嗣　南梁
天地玄黃　宇宙洪荒日月盈昃　辰宿列張寒來暑往　秋收冬藏閏餘成歲　律召調陽雲騰致雨　露結爲霜金生麗水　玉出崑岡劍號巨闕　珠稱夜光果珍李柰　菜重芥薑海鹹河淡　鱗潛羽翔龍師火帝　鳥官人皇始制文字　乃服衣裳推位讓國　有虞陶唐弔民伐罪　周發殷湯坐朝問道　垂拱平章愛育黎首　臣伏戎羌遐邇壹體　率賓歸王鳴鳳在樹　白駒食場化被草木　賴及萬方蓋此身髮　四大五常恭惟鞠養　豈敢毀傷女慕貞絜　男效才良知過必改　得能莫忘罔談彼短　靡恃己長信使可覆　器欲難量墨悲絲淬　詩讚羔羊景行維賢　克念作聖德建名立　形端表正空谷傳聲　虛堂習聽禍因惡積　福緣善慶尺璧非寶　寸陰是競資父事君　曰嚴與敬孝當竭力　忠則盡命臨深履薄　夙興溫凊似蘭斯馨　如松之盛川流不息　淵澄取映容止若思　言辭安定篤初誠美　慎終宜令榮業所基　籍甚無竟學優登仕　攝職從政存以甘棠　去而益詠樂殊貴賤　禮別尊卑上和下睦　夫唱婦隨外受傅訓　入奉母儀諸姑伯叔　猶子比兒孔懷兄弟　同氣連枝交友投分　切磨箴規仁慈隱惻　造次弗離節義廉退　顛沛匪虧性靜情逸　心動神疲守眞誌滿　逐物意移堅持雅操　好爵自縻都邑華夏　東西二京背邙面洛　浮渭據涇宮殿盤鬱　樓觀飛驚圖寫禽獸　畫彩仙靈丙舍傍啟　甲帳對楹肆筵設席　鼓瑟吹笙升階納陛　弁轉疑星右通廣內　左達承明既集墳典　亦聚羣英杜稾鍾隸　漆書壁經府羅將相　路俠槐卿戶封八縣　家給千兵高冠陪輦　驅轂振纓世祿侈富　車駕肥輕策功茂實　勒碑刻銘磻溪伊尹　佐時阿衡奄宅曲阜　微旦孰營桓公匡合　濟弱扶傾綺迴漢惠　說感武丁俊乂密勿　多士寔寧晉楚更霸　趙魏困橫假途滅虢　踐土會盟何遵約法　韓弊煩刑起翦頗牧　用軍最精宣威沙漠　馳譽丹青九州禹跡　百郡秦並嶽宗恆岱　禪主雲亭雁門紫塞　雞田赤城昆池碣石　鉅野洞庭曠遠緜邈　巖岫杳冥治本於農　務茲稼穡俶載南畝　我藝黍稷稅熟貢新　勸賞黜陟孟軻敦素　史魚秉直庶幾中庸　勞謙謹敕聆音察理　鑑貌辨色貽厥嘉猷　勉其祗植省躬譏誡　寵增抗極殆辱近恥　林臯幸即兩疏見機　解組誰逼索居閒處　沈默寂寥求古尋論　散慮逍遙欣奏累遣　慼謝歡招渠荷的歷　園莽抽條枇杷晚翠　梧桐早雕陳根委翳　落葉飄颻遊鵾獨運　淩摩絳霄耽讀翫市　寓目囊箱易輶攸畏　屬耳垣牆具膳餐飯　適口充腸飽飫烹宰　飢厭糟糠親戚故舊　老少異糧妾禦績紡　侍巾帷房紈扇圓潔　銀燭煒煌晝眠夕寐　籃筍象牀弦歌酒讌　接杯舉觴矯手頓足　悅豫且康嫡後嗣續　祭祀烝嘗稽顙再拜　悚懼恐惶箋牒簡要　顧答審詳骸垢想浴　執熱願涼驢騾犢特　駭躍超驤誅斬賊盜　捕獲叛亡布射遼丸　嵇琴阮嘯恬筆倫紙　鈞巧任釣釋紛利俗　並皆佳妙毛施淑姿　工顰妍笑年矢每催　曦暉朗耀琁璣懸斡　晦魄環照指薪脩祜　永綏吉劭矩步引領　俯仰廊廟束帶矜莊　徘徊瞻眺孤陋寡聞　愚蒙等誚謂語助者　焉哉乎也

比如，我們可以用這篇千字文作為編碼依據，寫出數碼1，就對應於天；寫出數碼2，就對應於地……那麽，我們就可以用最多四位數碼把所有這些字表示出來。

然後，如果咱組織個天地會的話，就可以用數碼1 2作為接頭暗號；或者，更中二一點——左手一個指頭指天，右手兩個指頭指地……

更精細點的話，我們可以把每個手指的伸曲作為不同的編碼；那麽兩只手10根手指就能編碼1024個不同文字——左手伸一下拇指，收回；然後再伸一下食指……

接頭人一看：哎呀同誌！可算找到組織了！

咳咳。

總之，我們看到了，文字是可以用其它方式「曲折隱晦」的表達的。

既然手指的伸曲可以作為一個不同的狀態、使得我們一雙手伸20次就能吟詠完這首詩：

白日依山盡，黃河入海流。欲窮千裏目，更上一層樓。

那麽，用10根電線的不同通電狀態組合，是不是也能編碼這篇千字文？

沒錯。這就是數碼電路原理。

我們把電線有電叫做狀態1，電線沒電叫做狀態0；於是，00000 00001就是一個狀態，而00000 00010是另一個狀態——規定每個位的電訊號權值為2^n，其中n是第n條電線，從0開始編碼：這就是二進制數碼。

二進制拿來記錄處理電路狀態實在太方便了；因此，電腦裏面習慣用二進制描述電路狀態。比如，寄存器當前值是00000 11000、地址線收到一個訊號00100 11011，等等。

請記住，這並不是說電路裏神奇的出現了0和1，而是我們把電路斷開（無電）叫0、電路閉合（有電）叫1，從而可以用0/1組成的數碼串簡潔的把「一把導線裏面每根線的電壓狀態」表示出來。

如果不明白的話，請反復誦讀這句話：00100 11011 應該讀作斷斷通斷斷通通斷通通。

二進制用起來還是不夠方便。

事實上，按照每位的權值是2^N的規則（和十進制計數法每位權值是10^N一模一樣），我們可以很容易的把它轉換為十進制表示——註意只是表示。

比如，電路狀態斷斷通斷斷通通斷通通，對應的二進制表示為00100 11011，十進制表示為155，十六進制表示為98——表示成十進制、十六進制短了很多，方便記憶了；但卻不再能直觀的看出電路的通斷狀態：必須轉換回2進制，才知道這個狀態是斷斷通斷斷通通斷通通。

但對我們要處理漢字的人來說，電路狀態我們並不關心；只要能夠區分它、從而把它和一個漢字對應起來就行了。因此我們一般直接用16進制（方便和二進制互換），不用二進制。

總之，這個狀態是電路上實實在在的物理狀態，拿萬用表可以測出來。我們把這個東西叫做機內碼。

所謂編碼，就是把千字文、阿拉伯數碼以及康熙大字典中的每一個字對應到機內碼的過程。

比如，空格" "對應於十進制的32、十六進制的20以及二進制的00100000；阿拉伯數碼"1"則對應於十進制的49、十六進制的31以及二進制的00110001……以此類推。

可以看出，這個編碼可以是一個極其隨意的過程。

比如，我很隨意的用千字文編碼；但發明電腦的美國佬卻用ASCII碼先編碼了英文字母、阿拉伯數碼以及!@$#^%之類符號；其它各國在引進電腦時，也會自說自話的搞出自己的編碼方案、從而把本國語言文字輸入電腦……

比如，中國就有GB2132、GBK、GB18030等漢字編碼；但台灣、日本、南韓以及東南亞國家也用漢字，他們也搞了個另外的好多套編碼……

那麽，這一大堆編碼方案，誰說了算？

不然的話，按你的編碼，99 67 54是520，結果到法國佬那裏成了250……你們還不要打起來啊？

所以，現在搞了一個全球統一的Unicode碼，一網打盡全球所有語言。

編碼完成之後，漢字就可以和羅馬字母、法文字母、德文字母、俄文字母、英文字母一樣，以電訊號有無/磁化方向/光碟上的凹坑等等不同狀態儲存起來了。

其中，在光碟上時，它是一串凹坑的組合；在硬碟上，它是一組磁域的磁化方向；在記憶體條裏，它是場效應管的充電狀態；在並列總線上，它是一把金屬導線的電壓高低組合；在序列通訊線纜上，它是高高低低的一組方波……

所有這些狀態，都可以用二進制表示；所有這些二進制，都可以轉換成更方便閱讀和記憶的十進制/十六進制數碼——但想要直觀的理解電路狀態，都必須還原到二進制。

我們知道，鍵盤上面只有26個英文字母以及十個數碼和!@#$% 等特殊符號，以及tab、shift、enter等控制鍵（但也可以用來輸入）……

你看，沒有漢字啊？這怎麽辦？

事實上，鍵盤輸入，歸根結底也只是電訊號而已。

既然我們已經用abcd、1234等等編碼了這些電訊號；那麽，把這些電訊號轉譯回12345、然後直接用12345這些按鍵上的字元、拼湊出每個漢字的Unicode碼——這，不就解決了輸入問題嗎？

這個自動把鍵盤敲的字母組合轉譯成對應的漢字的程式，就是我們熟悉的輸入法。

嗯。別急，別急。我知道你記不住。沒人能記住超過六萬個漢字的Unicode編碼。所以並沒有這樣的輸入法。

雖然這個辦法的確行不通；但這個思路是成立的，對吧？

既然思路成立，那麽不要急，一步一步來。先找出問題，再一步步解決它。

現在的問題在於，用這種方法敲漢字，我們第一記不住編碼表，第二只能利用數碼小鍵盤，輸入效率太低。

怎麽辦呢？

沒錯。拼音。我們把二十六個英文字母當拼音，把每個漢字的讀音敲進去，不就好了？

沒那麽簡單。普通話一共才幾百個音，漢字六萬多……同音字實在太多了。這怎麽輸入？

沒錯。筆畫輸入。漢字歸根結底有五種基本筆畫，橫豎撇捺折對應12345，妥了——比如王字怎麽寫？橫橫豎橫，1121，哈哈搞定。

仍然不行。遇到工字和土字，你怎麽辦？

所以現在的問題是重碼，對吧？

好辦。把重碼字列出來，給使用者選擇。這下妥了吧？

沒錯。解決了。

甚至於，拼音輸入也能這樣解決。

不僅如此，既然普通話只有幾百個音，那沒必要敲全eng、ang吧？

給eng/ang也來個編碼，敲兩下，一個音就進去了——哈哈，雙拼！

但這樣仍然不好用。每敲一個字都要在候選字裏面找半天，這實在太慢了。

還得繼續最佳化。

現在有兩個思路。

一是王永民先生搞的五筆輸入法，思路是從編碼漢字的偏旁部首入手設計一套字根表，一方面減少了每次輸入的擊鍵次數，另一方面減少乃至杜絕了重碼。以至於五筆高手可以輕易做到每分鐘輸入超過200個漢字。

但五筆輸入法需要專門的訓練。背字根表，反復練習直到形成肌肉記憶……

因此，另一條思路獲得了更多支持，以致於現在只有專業錄入人員才會學習五筆。

這個思路就是：繼續使用拼音輸入法；但盡量讓使用者一次輸入一個詞、一句話；那麽借助軟件強大的分析能力，就可以「猜」出他最可能想說什麽。

打個比方的話，你說「lin」，沒人知道是哪個字；但你說「樹林」「林黛玉」「臨安」「臨潁」「淋雨」，這個字就唯一確定了。

當然，單字仍然無法確定；有些詞也有同音。但無論如何，這個策略使得重碼少了很多。尤其借助概率論的馬爾科夫鏈理論，整句輸入可以得到極高的準確率，幾乎不用選字，從而使得熟練的拼音使用者也能一分鐘輸入一百字以上。

總之，漢字的輸入是一個編碼的巢狀過程：先是擊鍵產生一個鍵盤碼，鍵盤碼被鍵盤內建的CPU轉換成對應的ASCII機內碼（並列路線是通斷錯落的一組電平，序列路線是一組方波）；然後這些ASCII碼的組合（比如ABCD）又被轉換到漢字機內碼（Unicode或者GB2312/GBK/GB18030）——最終，這些機內碼被保存到磁盤/光碟等儲存介質，漢字從輸入到儲存這一條龍過程就算走完了。

註意這裏面反復進行了多次編碼和解碼；但編碼/解碼過程各自獨立，互不影響。

比如，你可以用拼音或者五筆編碼漢字、然後以這個編碼輸入；然後輸入法解碼你敲入的鍵盤字元序列，再自動幫你編碼到Unicode或者GB系列。

從哪個途徑轉換我們不需要關心。只要最終得到的Unicode正確。

編碼和儲存搞定了，怎麽輸出呢？

比如，見了12354這串數碼，你怎麽知道它應該是哪個漢字？這個漢字該怎麽寫？

在回答這個問題前，我們應該先想一想：螢幕上是如何顯示漢字的？