Full of Sadness in My Heart
這些天,一想到至死也不可能「獨立」「手工」「研編」出一部滿意的漢語辭書,便滿心傷悲。獨立者,不抄襲、不取藍本;手工者,較少依賴計算機輔助(實因未能掌握語料庫建設、語言處理等相關技能);研編者,字字歷史與邏輯統一地寫出來。照這種方式試寫詞條,揣摩拿捏、定義取例,一天竟寫不完一個字頭,且沈跡下流、文獻稀缺、功力不濟,索性放棄(實因一毛錢都掙不到)。
坊間至死未竟編書「大業」的,實在不是少數。若說
我所了解的,如《王力古漢語字典》,作者
這本小字典大概寫了 8000 個字頭,花去十五六年時間,假定作者每天都在寫,按 16 年換算,每天約寫作 1.3 個字頭出來,效率實在不能算「高」。處
After Giving Up
鑑於這慘淡的前景與「錢景」,索性把一年來課餘折騰的 LaTeX 字典模板放到 github 上供研討,也希求得版式細節改進意見。這份 LaTeX 漢語字典模板,以
本來源碼就是在前人基礎上修改的,現在也有必要寫一份 documentation 說明此模板使用方法,也便於其他人在此基礎上修改出他自己滿意的樣式來。
Dic Page Style
經過一系列「手工」運作,源碼設定樣式後,便只需按既定樣式往裏面填充文字內容。下圖是以「字」的解釋爲例的一頁,文字內容抄自《漢語大詞典》。
一頁樣例
頁面簡說
Dic Entry Style
字頭樣例
字頭信息簡說
- 字頭左上角總筆畫(stroke)信息,可製作全書總畫檢索。難點卻在總畫之確定,涉及新舊字形筆畫不一,
中 日 韓 臺 港 「標準」各有差異,莫衷一是,字典正文極少使用總畫爲漢字排序依據。- 字頭左下角標記所屬《康熙字典》部首(radical,此部首不等於「倉頡部首」),標記部首可以生成傳統漢語辭書最常見的「部首檢字表」。部首與字理最相關,傳統字書多採部首排序正文字頭,然而,有些字部首歸屬難以確定,又涉及新舊字形,查檢不便,聚訟紛紛,本模板也未採用部首排序漢字。
- 字頭樣式設計兩種,一種下沈三行,一種下沈兩行,以區別「常用字」與「非常用字」。然而,一字之是否常用,並無絕對、可靠的數據來確定,對具體的使用者而言,常用程度也不一樣。好在 big5 碼中的字大致可反映古今文獻的常用漢字,可資參考。近年來,古籍漢字字頻統計,也有不少單位、企業在做,如《古籍漢字字頻統計》之類,或可供參考。
- 字頭右方依次爲本字頭的「第六代倉頡碼」(Cangjie Input Code)、「四角碼」(Sijiao or Four Corner Code)、當代國語讀音(mandarin pronunciation)、粵拼(Cantonese pronunciation)。當然,這些可以換成其他信息,如粵拼換成上古音信息之類,也可以修改源碼添加標記信息。
- 第六代倉頡碼並未有「官方」版本,因第六代倉頡輸入法遲遲未公開發佈,外人只知其更便於「檢字」,甚至不惜更名「蒼頡檢字法」。
- 本模板使用的倉頡碼是
LEO Yoon-Tsaw 爲 Rime 輸入法引擎所製蒼頡檢字法輸入方案源文件。此文件中大致有八萬多漢字的倉頡碼,「民間」版本,或與官方最終版本有差別,在 Rime 輸入法下倒不是問題。綜合考慮各種排序利弊,本模板最終採用第六代倉頡碼排序所有字頭。- 四角號碼檢字法或許風行過一段時間,目前一般讀者極少會用到它。一個例子如:《教育部異體字字典》附錄的四角碼檢字法介紹。但是一字四角碼之確定卻較爲麻煩,蓋此檢字法幾經變遷,存在幾個差別不大的版本,導致同一字在不同版本中的四角碼不一致,困擾翻檢者。本模板之所以仍標記漢字四角碼,皆因重要古籍出版物的附錄大多都附有漢字四角碼索引檢字。
- 普通話讀音,每本漢語辭書都標記的信息。本模板預期所附漢字「國音索引」,只索引常用的大約一萬三千多字的讀音作「拼音檢字」用,大致參考 big5 碼收字狀況。
- 本模板標記
粵 音純粹爲試驗,又因在粵 斷斷續續寫完這個模板。粵 拼似乎也存在好幾種方案,市面上的粵 音辭書使用的粵 拼方案也不一致。不過標記此信息,可以製作國粵 讀音對照表與索引。同理粵 音換成字頭的上古音、中古音、客家話讀音、吳 語讀音都可以,同理也可以製作國語吳 語讀音對照之類的索引。
字頭源碼
|
|
編寫示例
|
|
Dic Index Style
索引程序
對讀者而言,無論辭書或一般圖書,索引都是極其實用的工具。索引能讓讀者知曉某一字、概念、人物、地名之類在全書的哪些地方、哪些主題之下出現過。
本模板自去年暑假開始折騰出草稿樣式,遲遲未能解決漢字索引項的排序問題,字母或數字排序則沒什麼難點。漢字 index entry 的順序,必須有一定依據,好在有了 zhmakeindex 工具,使得索引漢字可選「拼音」、「總畫」、「部首」三種方式排序,極便於查檢。索引製作詳參這篇博文。下圖便是按照漢語拼音方案排序的索引項:
索引簡說
- 英漢索引(English-Chinese Index)。釋義時可附帶釋以英文(其他語文索引同理),以生成「極其簡易」的英漢辭典。
- 類辭索引(Thesaurus Index)。如「愛」字出現在「字」的某一義項釋義中,則這兩個字之間或爲同義詞(synonym)、或爲反義詞(antonym)、或爲相關詞(related word),本模板悉歸入 Thesaurus 中。本索引設計索引項漢字排序問題解決方案,採用
劉海洋 開發的 zhmakeindex——面向中文排序的 makeindex 程序(A Program for Index Entry Order of Chinese Characters)。- 四角碼索引 (Four Corner Index),依漢字四角碼大小排序檢字,對本模板設計而言,用處似乎不大。
- 總畫索引 (Han Stroke Index),依漢字總筆畫多寡排序檢字。
- 倉頡碼索引 (Cangjie Input Code Index),依據漢字倉頡碼排序檢字,也是正文字頭排序的方案。
- 粵音索引 (Cantonese Index),常用字
粵 音檢字表,也是簡易的粵 國讀音對照表——從粵 音查國音。- 國音索引 (Mandarin Index),常用字普通話讀音檢字表,也是簡易的國
粵 讀音對照表——從國音查粵 音。之所以限於常用字,乃考慮篇幅與實際使用情況而定。一萬三千字以外的非常用字,若需查檢,查檢者大多不識其音而採其他檢字法查檢,故無必要索引非常用字的讀音,以節省篇幅。
Conclusion
上文簡單列舉了 Cangjie Chinese-English Dictionary 幾個關鍵設計樣例。此外還有許多細節源碼,以及許多 package 依賴關係,都可在這裏查看、下載、改進。使用、修正本模板時有任何問題,也可聯繫作者:logos@duoyu.ren。
The article was recently updated on Monday, October 23, 2023, 13:38:47 by 👩 高松年.