![]() |
||
Regular Member
![]() ![]() 加入日期: Jan 2008
文章: 95
|
原來我學的是 “繁體字 v 0.985 beta”版
這種學起來以後一輩子忘不掉的東西可以不要一直改版好嗎? 是怕印字典的出版社沒飯吃嗎? |
|||||||
![]() |
![]() |
*停權中*
加入日期: Feb 2018
文章: 33
|
引用:
關於 幣 ,我的理解就是 unicode.org 校稿不確實,unicode.org 是「美國」的單位嘛。 |
|||
![]() |
![]() |
*停權中*
加入日期: Feb 2018
文章: 33
|
碎碎唸:
資料彙整過程的一些筆記。 瀏覽了一些中文字形檔議題的討論文章之後,我有新想法,想嘗試看看從我整理出來的六千五百多個國字/正體中文漢字之中,再做一次資料萃取。再挑選數百個國字出來,這些國字,剛好可以呈現 二一四個部首、部首變體、五一七個部件、部首/部件在方塊字空間內不同位置的呈現。 這樣挑選出來的數百個國字若都去練過一輪書寫筆畫和筆順,基本上就可以把中華民國教育部規範的現代 國字/正體中文漢字(常用字+部份次常用字)完整了練過一輪。 接下來我就要開始摸索,我該如何跳選出這數百個國字? 試了一些關鍵字去google,但我沒有找到相對完整的既有經驗分享文,所以得靠自己從零開始摸索。 摸索過程中我開始試著先把有著同樣部件群組的國字先群聚起來,範例字「豆」,這個字是部首、由三個部件依序組合而成、同時也是有著其他部首的國字的其中一個區塊部件群組。 於是我在試算表內,依據行政院國發會全字庫所排序好的部件群組順序列表,去選取部件字串,再做關鍵字搜尋。就可以找到多個包含部首「豆」以及包含部件群組「豆」的國字。 就這樣繼續找其他的部件群組,然後發現一個狀況,同一個部件群組,在不同的國字內會發生排序列表不一致的狀況,例如 某部件群組原本排序是1、2、3,多個同樣部件群組的國字,會突然發現某個國字內的相同部件群組的部件排序是1、3、2,也就是說,如果我連續選取部件字串,然後做關鍵字搜尋,就有機會漏掉一∼多個國字。 簡單來說就是公家機關在資料上線前「沒有確實校稿」,我無法用例如AI、批次等方式做有效率的快搜尋和彙整資料,我依舊還是得用人工肉眼找字串,避免因為部件排序1、2、3被誤填成1、3、2而錯過的國字。因為公家機關的校稿不確實,搞得我找資料好累,得土法煉鋼的找! |
![]() |
![]() |