】 【打 印】 
【 第1页 第2页 第3页 第4页 】 
以数字映射古代文学经典
http://www.CRNTT.com   2022-03-30 15:32:49


 

  仅依靠数据自身不能完成“智慧型”转化,比数据更重要的是阐释数据的方式。除了将统计分析与经典论题相关联,数据的切分与聚类也是至关重要的基础环节。一项经典研究案例是,将《红楼梦》以四十回为单位进行文本切分,最后一部分在用字量方面的显着不同刚好佐证关于作者的疑问。然而,以用字量直接衡量作品质量或阅读难度又会堕入机械的统计分析思维。例如统计中居首的几部小说文献,其体量大、涉及内容广、雅俗语体并包等因素共同提升了用字量。同样,受常用汉字总量限制,文献篇幅的增加反而会导致用字比下降。故而统计中引入计算语言学常用的TTR_H模型以修正用字比,最终结果显示,用字比最高者皆为蒙学读本:《千字文》(1)、《百家姓》(0.986)、《三字经》(0.894)、《声律启蒙》(0.857)。可见,编着者有意识地在有限的篇幅和内容难度中增加用字量,让学童能比较密集地习得尽可能多的汉字。蒙学读物的编纂者选字标准是什么,是当时常见经典文献中的高频字,还是日常生活中的常用字,还是有别的标准?这种选择是以何种方式完成的?这些都是值得进一步探究的话题。

  从用字特征探测经典命题

  字频统计中,考虑到虚字和实字的不同属性和阐释功能,二者通常被分别计算。虚词在汉语史等领域的研究中经常被作为特征数据使用,同时也是作品风格比对的标志性参数,虚词的使用比重本身便构成不同作者间的风格标识。“五经”之中,参照后世“文笔之辨”,《诗》为有韵之文,因而与其他几部书相比,高频词中实词比重更大,古人“实字多则健,虚字多则弱”的诗论观点或滥觞于此。以高频字的虚实映射“文笔之辨”的方法可推及后世,普遍而言,在诗歌与词曲等文体中,实词作为高频词的概率大于散文文体。

  作为“五经”中成书年代最早的《尚书》,其虚字运用特征同样保存了上古汉语的流变痕迹。《尚书》中频次居首者是极具上古色彩的虚词“惟”,这不仅与其中许多篇目的记言性质有关,也体现了早期汉语与后来“之乎者也于”时代的分野。以相同视角观照近古作品,可以窥见汉语史上的另一重大变革。对话是小说中的重要元素,表达说话行为的动词自然享有高频地位,在《三国演义》与《聊斋》中体现为“曰”,而《西游记》和《水浒传》中则体现为“道”,这是后一组作品文言色彩减弱的重要标志。而真正的白话转型发生在《红楼梦》身上,“的”首次取代语法功能相同的“之”而上榜,成为第二高频词。《红楼梦》中居首的高频词是另一个极具白话特征的虚词“了”,这也是《水浒传》中的第一高频词。 


 【 第1页 第2页 第3页 第4页 】 


扫描二维码访问中评网移动版 】 【打 印扫描二维码访问中评社微信  

 相关新闻: