瀏覽單個文章
FLYFLY3
*停權中*
 

加入日期: Oct 2016
您的住址: NewTaipeiCity
文章: 48
中華民國教育部資料查閱有感

中華民國教育部官網到今天目前為止,有這樣一份文件檔:

polyphone10112_1020207updatemail
國語一字多音審訂表(初稿)101年12月12日公告
PDF

這是我要編輯注音輸入法表格檔得時候會用到的參考來源資料之一。下載打開閱讀後,因為想要偷懶的關係,直接選取複製內文貼到試算表LibreOffice CALC的格子內,然後就發現了一連串的問題∼∼∼

我發現這份PDF文件裡頭的「輕聲符號」,背後所採用的unicode碼位是:
---
̇
U+0307 COMBINING DOT ABOVE
---
這個碼位在實務應用於中文文書處理時,會產生「許多的細節小麻煩」。

我的理解沒錯的話,一般臺灣民間的中文文書處理用的「輕聲符號」對應的unicode碼位應該會是:
---
˙
U+02D9 DOT ABOVE
---

再來是注音符號「ㄧ」,在這份PDF文件中採用以下兩個unicode碼位輪流來呈現:
---

U+4E28 ㄍㄨㄣˇ


U+2502 BOX DRAWINGS LIGHT VERTICAL
---

就我個人的文書處理經驗,採用以下這個unicode碼位「比較合理」:
---

U+3127 BOPOMOFO LETTER I
---

再來又發現PDF文件中一堆肉眼乍看之下很像是「全形」的「括號」,其中會有部分「括號」背後的碼位其實是「半形」的,而非全部都是全形括號(「採用全形括號」是「教育部自己的文書規範」)。例如:
---
(
U+0028 LEFT PARENTHESIS
---

再來透過搜尋關鍵字還發現花蓮縣教育處官網有 一字多音審訂表.xls(102/9/30),下載打開確認之後,發現這個試算表檔案內有著「更嚴重」的unicode碼位瑕疵錯誤!這個試算表檔案「不能利用」。

發現這個狀況之後,我就「無法」「偷懶」得用複製貼上的方式來相對有效率的彙整編輯注音輸入法表格檔了。我必須「一筆一筆」的輪流把注音組合複製出來,修改問題碼位,在貼進試算表裡頭繼續彙整與編輯。要處理的筆數至少有4808筆(教育部規範的4808常用字)。

最後我還是決定很雞婆的打電話給中華民國教育部,反應教育部官網公告的國語一字多音審訂表 和 花蓮縣教育處 的文件編輯「有嚴重的」“unicode碼位瑕疵”,他們之後會真的就去盡快著手修正並重新上傳更新版文件嗎?還是不了了之能拖就拖?就天知道了∼∼∼
     
      
舊 2017-12-05, 07:56 PM #1
回應時引用此文章
FLYFLY3離線中