This page looks best with JavaScript enabled
編不如抄,抄不如竊:徒手攢一本字典
👨 李二狗 · · · 🔢 4212 words· ⏲️ 9 min read · 👀... views
🏷️
  • #dictionary
  • cuant.png

    大約四、五年前,本站二狗站長正式着手編輯一本符合自身喜好的自用字典。這些經歷記錄在《TeX 漢語字典模板》《編舟囈語》兩篇文章中。雖然大體的版式結構早已確定,但具體內容的編輯卻遲遲難有進展。從這兩篇記錄來看,二狗站長預估這是永遠不可能完成的任務,字裏行間怨念頗深,近乎絕望。

    這次趁着冠病疫情閉關的契機,二狗的思想迅速轉變,僅以幾天時間便「編輯」出了一份字典的草稿。爲什麼這次「效率」這麼高?

    答案就是「不要臉」,放手去抄襲!正所謂,無恥抄襲,所向披靡;沒臉沒皮,天下無敵。

    整合商、組裝廠

    一人行爲之轉變,源自思想認識之轉變。思想認識之轉變,大多並非瞬間完成,而是漸進之過程。

    二狗早年閱歷簡單而淺薄,所以妄圖立足自身,獨立編研,爲不可爲之事。後曾「老大貨於商人家」,眼見老闆商海弄潮、翻雲覆雨,歎服不已;亦曾蒙敎誨諄諄,「要善於借力,能夠整合資源把事情辦成辦好」之類。「借力」若赤裸裸地講,便是「利用」一切可以利用的不屬於自己的人、財、物等資源。當時把此類智慧視爲「雞湯」,嗤之以鼻,以爲果然無商不奸。隨着對「代工」「組裝」兩詞的深入體悟,認識漸漸轉變。這種體悟記錄在去年的《從培根「請人代讀」說起》一文中。歷經四五年的漸進認知,死腦筋終於變靈活了。

    所以,本文所展示的這份 A4 列印後兩千多頁、節本一千五百多頁的字典草稿,從頭到腳,由內而外,沒有一個字符是二狗站長自己編研出來的,通篇都是徒手 (tōu) 」出來的。

    下圖是草稿大致確定的直排版式效果,與《TeX 漢語字典模板》相比,並無大的調整。直排、橫排兩種版式,若要配備英語解釋,做成漢英雙解字典,則應使用橫排版式,如本文開頭圖片展示的那樣。一旦腦子活絡了,沒有什麼是不可以抄襲的:連版式設計、色彩偏好也是抄襲了《全訳漢辞海》。不過,限於技術水平,有些設計沒有抄到位。

    quanyihancihai.png

    ——咦?!上面這個版式設計看着挺美觀的。
    ——是嗎? (tōu) 它!

    HYDCDVertical20200520 P22.png

    徒手攢的流程

    研究這方面,研究是不可能研究的,這輩子不可能研究的。獨立編輯又不會編輯,就是偷這種東西,纔維持得了生活這樣子。我不生產字書,我只是大字書的 搬運 (tōu qiè) 工,並立志做一個洋溢着企業家精神的整合商與組裝廠。

    字典編輯從內容到形式,涉及方方面面,有的在其他文章中已說明。下面請依次從藍本、條目、音、形、義方面說明組裝流程。

    路:到誰家去抄襲

    既然厚着臉皮決定 抄襲 (tōu qiè) 了,那就要對得起這巨大的成本。一般人家的字書,水平未必可靠,還不值得去抄襲呢。

    先抄《重編國語辭典》

    Screen Capture_select-area_20200523030526.png

    起初,站長 抄襲 (tōu qiè) 的是《敎育部重編國語辭典(修訂本)》。因爲:

    • 它聲稱自身的特色爲:「本典為一部歷史語言辭典,記錄中古現代各類詞語,並大量引用古典文獻書證,字音部分則兼收現代及傳統音讀。」以淺陋的認知功力,覺得此書貫通古今,簡明清晰,如獲至寶。這不正是自己心心念念的字書的樣子嗎。
    • 該字書是按照「創用CC公眾授權條款」公開上網的。「……本授權條款允許使用者重製、散布、傳輸著作(包括商業性利用),但不得修改該著作,使用時必須遵照「使用說明」之內容要求。」無侵權之虞,對受過良好知識產權法學敎育的站長來說,真是求之不得的資源。
    • 如下圖所示,這是網頁版式的資源,意味着文字是結構化格式化的文本,應該可以便捷地「爬取」全部文字。而且,肯定有人早已「爬取」了所有資料。

    Screen Capture_select-area_20200523032130.png

    但經過站長的仔細分辨,又覺得雖然它號稱古今兼收,但就深度與廣度而言,並不十分令人滿意。苛刻地說,處理得好,是古今兼收,皆大歡喜;處理不好,便是不今不古,顧此失彼。因此,權衡成本,站長迅速轉換 抄襲 (tōu qiè) 對象。

    終歸《漢語大詞典》

    最終又回到五年前最屬意的「藍本」——《漢語大詞典》。因爲:

    • 該書成書晚於《大漢和辭典》《中文大辭典》《辭源》,照理講,如果當年華東五省市的編輯團隊是對歷史負責的,它理應 整合 (tōu qiè) 了前面三部書的資源,水準大體上是可靠的。
    • 香港商務印書館發行有「漢語大詞典3.0版(CD-ROM)」。如下圖所示,光盤文本爲結構化格式化文本,以「民科」的狂熱程度,字典文本自然一定早已被「爬取」出來了。

    hydcft20.jpg

    唯一的遺憾是,該字書沒有像上面那本那樣按照某種授權協議對公眾開放。提取、整合、編輯其文本內容,自然是侵權行爲。

    等等,不對,臉都不要了,還顧得上侵權不侵權嗎?

    (tōu) 它!

    但,全書共有十二卷,近五千萬字。顯然,這種體量是用以備查的,全部 抄襲 (tōu qiè) 過來,既無必要,也不可行。所以,得有個 篩選 (tōuqiè) 標準。

    目:抄襲哪些內容

    這主要是指確定提取哪些字頭的內容。

    字頭立目

    若干中型辭書的選字立目數量大同小異,大都較爲接近,維持在一萬一千個字頭左右。最後站長參考的標準是張雙棣《古代漢語字典》的立目字頭。畢竟還是要相信專家,不然相信誰呢?信自己更不靠譜。

    現代計算機技術的運用,以及古典中文語料庫的建立,爲「科學」而非「主觀」地選字立目提供了良好的參考。所以,依據《四部叢刊》《四庫全書》得出的《中国古籍用字字频与分布统计分析》字頻表也是本草稿的 篩選 (tōu qiè) 標準。這個資源是在 GitHub 上開源的,但公佈者並未說明使用權限。

    兩種材料整合,仍然確定了一萬一千個多個字頭。其餘的一萬九千個在字頻表內的字頭,大都是「某某字異體、某某字俗寫」之類,對本草稿的設計初心並無價值。

    字頻標示

    站長將這些字頭按其在字頻表的位置,分了十一個層級,每個層級一千字,並在最終版式上一起呈現。即標有「F0」的即意味着這個字在字頻表的 0~1000 範圍內,屬於最常見的字頭,其他「F1……F11」同理類推。這也便於附錄製作、提供字頭字頻索引。

    音:語音怎麼抄法

    站長 編輯 (tōu qiè) 這本字典,原只是要 (chāo) 出一部符合自身喜好的字書,並無任何其他的企圖。所以,語音怎麼標註,純屬隨機的玩兒法。

    目前,標註了《切韻》系統的中古發音(擬音),普通話讀音、粵語讀音,這些都是直接 整合 (tōu qiè) 或借力其他人的資源完成的。站長對音韻學毫無學習與研究經歷,自然無法鑑別正誤得失。

    中古擬音

    根據詩歌自覺與高峯階段,中古音大概最能反映大部分詩歌原本的音韻特徵。所以,爲中古漢語擬音的人很多,包括科班專家、外行專家、「民科」。在網絡上流行的擬音系統方案也有若干版本。站長最終選擇的是復旦大學現代人類學敎育部重點實驗室嚴實的擬音方案。(PS. 二狗曾到這個實驗室採訪過四五次,它每次對媒體發佈的研究成果都富有「新聞價值」)

    放着那麼多的科班專家的方案不用,卻選用分子人類學學者的方案,主要考慮其在十年前錄製了一套完整的視頻敎程。這個方案有自己的 Rime 輸入法方案,碼表容易獲取,「借力」使用較爲便捷。這對站長這樣的音韻學 小白 (shǎ bī) 而言是很友好的方案。擬音系統的作者雖是分子人類學學者,但去年在 Nature 上發表了一篇研究漢藏語系起源的論文,想必其在這方面的功力很強大。沒辦法,自己不做研究的人,又不願或沒有功力分析鑑別,只好選擇信以爲真。

    cuantyin.png

    字典中標註在字頭上方的,如「 (càn) 」,即該字的中古發音擬音。今天普通話「攢」讀平聲或上聲,但中古音爲去聲或上聲,這與《漢大》呈現的《廣韻》音系「去換」一致。

    上古擬音

    除此之外,在 Rime 輸入法的上古全拼輸入方案中,可以找到基於鄭張尚芳擬音系統的輸入法碼表。照理應該 整合 (chāo xí) 進本草稿,但站長實在無功力鑑別這個擬音方案的水準與同行評價情況,只好暫時擱置靜觀。

    方言土語

    同理,許多母語愛好者爲 Rime 輸入法製作了不少方音土語輸入方案,碼表可獲得這些方言土語的拼音方案。如棗莊話、泉州話、鄭州話之類。這種便捷的製作母語輸入法方案的辦法,一度讓我有製作家鄉話輸入法方案的衝動。後來轉念一想,官話方言與普通話的差異只在少數用詞以及發音調值方面(如「 樹枝 (fùzīzi) 」「 故意 (déiwěrd) 」),無必要製作一份新的碼表,亦無必要在本草稿記錄——自有專門的方言字典記錄。

    那爲什麼標記了字頭的粵語發音呢?因爲五年前便擬標記粵音了,雖然完全聽不懂,也完全無法鑑別所依據碼表的正誤,但畢竟在粵務工, 整合 (chāo xí) 進來聊備一格。如果在滬務工, 整合 (chāo xí) 的或許是吳音碼表呢。

    形:字形怎麼抄法

    立目字頭的字形主要採用兩種字形。

    十三經集字摹本字型

    在字頻表前三千以內的字頭採用基於《十三經集字摹本》製作的顏、歐風格的字形。

    Screen Capture_select-area_20200523054629.png

    山東同鄉金留庆將《十三經集字摹本》中的字型數位化,製作了大概包含九千多個字頭的金留庆经集字体二狗站長通過中介只獲得了該字形的非商業使用授權。咳!臉都不要了,還管他授權不授權。

    ssjxjt.png

    內木一郎的 I.Ming

    其他字頭則亦內木一郎製作的開源字體 I.Ming 呈現。如上面整頁版面示例圖的「闛」字頭。這款字型的作者是舊字形或「傳承字形」的著名擁躉,故其字形自然不符合官方規範的標準。但,開源就夠了。二狗站長也很佩服他。

    說文篆體字型

    《全訳漢辞海》,某些字頭附列其說文篆體字形。如下圖所示,本草稿也曾嘗試在每個字頭後附列對應篆文字形,以北师大说文小篆全字库说文解字呈現。但這兩款字型的製作依據不清楚,且時常會缺失字符,便暫時放棄篆體呈現。除非自己製作一款說文篆體與立目字頭一一對應,否則這個問題無解。既然由內而外無一是有「自主知識產權」的,那就沒必要熬夜研究、製作篆體字型了。

    zhuanti.png

    義:釋義怎麼抄法

    即便僅僅提取一萬一千個字頭,文本內容體積依然極爲龐大,龐大到一般的文本編輯軟件打開整個文件便瞬間卡頓。這還只是單字字頭,還不包括字頭的組詞條目。所以,勢必要對義項與例證編輯簡化。

    HYDCD P521.png

    義項整合與歸併

    《漢大》的解字是號稱貫通古今源流的。因此字頭的義項分列極其詳細,導致許多字的義項多達幾十個。這不符合本草稿編輯初心,本該學習王力對《辭源》的處理辦法,花心力整合歸併。不過,但王力出師未捷身先去的結局,證明這是件極其艱難的事情。

    例證篩選與刪減

    有的義項古今通用,所以某一義項的例證可能選取從《尚書》到《魯迅全集》各個時期的典型用例。這導致例證占用篇幅較大,所以本草稿索性統一只保留用例第一條(即始見書或相對早期的例證)。這可能會導致讀者無法判斷某一義項是否仍用於現代社會。不過,這讀者就小偷一人,問題也不大。

    結語

    上面的話,零零散散,毫無邏輯,大致展示了二狗站長身爲合格整合商、優秀組裝者「 武裝 (chāo xí) 到牙齒」的勇士精神。

    讀者諸君若對此草稿 PDF 文檔有興趣,可以郵件索取。(版權所限,草稿是不可能公開傳佈的)

    本文在 bilibili 以及 Youtube 附有視頻解說。

    The article was recently updated on Saturday, March 27, 2021, 16:41:55 by 王小花.


    李二狗
    支持作者

            🤑DONATION