中文的編碼

中文的編碼

前幾日學長問到(big5, utf8)檔名轉碼的事情 其實已經知道要用covnmv轉 原因在於 不符合的編碼環境下進行編碼 在big5寫出utf8的檔名等錯亂情形 你以為他是big5但其實是utf8... 轉換的時候convmv要記的下--nosmart 否則會根據不同locale會有異想不到的結果 想起之前看過的文章決定摘要一下中文編碼的淵源 請一定要看 自由軟體鑄造場第五期-中文化-Big5 2003 謝東瀚 撰於 2003/11/04 節錄內容: 最早的中文編碼... CCCII: 曾有一批文字學家、圖書館學家、以及電腦學者等所組成的「國字整理小組」,進行國字整理與編碼工作,並制定了目前通行於圖書館界的 CCCII 碼,然而可惜的是此套編碼不被當時的政府單位採納,因而無法在電腦業界推廣。 BIG5_1984: 在此之前,是故他們才有另起爐灶,制定 Big5 碼之舉。而我們為了便於區分起見,便稱這個最初的 Big5 碼版本為: BIG5_1984。 原先BIG5有許多問題與補救措施,個廠商獨立處理之下形成多種版本 BIG5_Eten: 「倚天中文系統」的「倚天外字集」 CP950: 來自微軟視窗系統的 CP950 字集 自由軟體世界開始邁向中文化時,他們找不到一個有公信力的標準可以參考,同時也不了解我們這邊的情況。他們唯一找得到的參考對象,是一份來自 Unicode Consortium [7] 的 Big5 與 Unicode 之間的轉碼表 [8],偏偏這份轉碼表的內容,不知為什麼,與 BIG5_1984, BIG5_Eten, 及 CP950 間又有些許差異,少了很多 BIG5_Eten 中已廣為使用的倚天外字 Big5 碼的變種故事還沒完全結束 BIG5-HKSCS: 這是由香港政府所制定的,而且也已成為香港地區通行的標準。 BIG-5E 中推會 「BIG5 補充碼字集」(BIG-5 Extension Character Set ---- BIG-5E [10]) 終於有人呼籲政府重視 OpenI18N 成立一個 Li18nux-big5 的工作小組: 1. 重新檢示 Big5 碼,並確立其與 Unicode 間的對應。 2. 推動 Big5 碼國家標準化,期望政府相關單位能正視,並參與維護 Big5 碼。 於是,中推會於今年下半年度起接受委託,開始了相關的作業。在歷經幾次會議之後,終於有了一份「BIG5-2003」的草案。 現在電腦使用者還有許多人使用big5編碼的軟體 其實是非常危險的,請大家多注意並使用UTF8編碼 怎麼轉換呢? 在Linux下一定要會用的工具 轉換檔名 convmv 轉換純文字內容 iconv 使用openoffice建立辦公文件 資料庫用新版mysql FTP-Client 使用filezilla 另外 big5 vs utf-8 的一些操作 有非常仔細的實做 例如: 用 file 查 big5 及 utf-8 碼 另外,發現到一個有趣的問題,使用 file 這個指令來操作 utf-8 及 big5 的檔案,有何不同呢?如下: # file txt-big5.txt txt-big5.txt: ISO-8859 text # file txt-utf8.txt txt-utf8.txt: UTF-8 Unicode text 一起邁向UTF8吧\~\~\~

convert from Thomas blog post id 49 old convert log: ./105900/tag%3E2007%2002%20linux)

@2007 @02 @linux

Comments