寫程式時可能遇到的 big-5 碼問題

  1. 在 Big-5 碼中, 每個中文字佔兩個 bytes, 第一個 byte 可以是 A1-F9 當中的任何一個; 第二個 byte 可以是 40-7E 或 A1-FE 當中的任何一個.
  2. 由於 40-7E 是一般常用字元的 ASCII 碼範圍, 因此有時會給程式設計師帶來一些困擾. 例如 ASCII 碼各為 5b 5c 5d 7b 7d 的 [\]{} 等字元在 Tcl/Tk 與 perl 當中都有特殊意義, 如果你的 Tcl/Tk 或 perl 程式裡面有 "加" (a5 5b) "也" (a4 5d) "程" (b5 7b) "陣" (b0 7d) "功" (a5 5c) 等字, 恐怕就要小心了. 其他程式語言也有相同的問題.
  3. 如何知道一個中文字的 big-5 碼? 在 UNIX 下, 可以用你熟悉的 editor 建立一個小檔案, 把你要查的字敲進去, 再用 od 命令看: od -A x -t x1 檔案名稱. 注意: 換列字元的 ASCII 碼是 0a.
  4. 如何知道一個文字檔裡面是否有製造問題的 big-5 碼? 我也不知道有沒有這樣的程式; 但是我正好在教 Tcl/Tk 與 perl, 所以就寫了一個: b5tm. 例如你想知道 grade 這個檔案裡面是否有含有 []{}\ 等碼的中文字, 可以在 UNIX 的 shell 底下用 b5tm '[]{}\' grade 查看. (perl 版寫得比較好)
其他資訊:
  1. unicode 與 iso10646 簡介
  2. About I18N

Perl 語言

  1. 新手上路
  2. 基本要素
  3. 餵資料
  4. 常用句型
  5. regexp
  6. 詳談變數
  7. 一語中的
  8. 副程式
  9. 模組
  10. 外界對話

附錄

  1. 參考資料
  2. scripting
  3. Windows
  4. 圖形介面
  5. big-5 碼