中评社北京3月30日电/据光明日报报道,大数据及其相应技术已经对社会知识体系及思维方式产生重大影响。基于这一技术对古代文学经典文本进行深度而高效的分析,可使文学研究进入更宏观的视野,提高研究结论的精准性、稳定性及可验证性,促生新的研究理念、方法与范式。信息革命以来,古籍文献数据化积累和知识库建设卓有成效。浩如烟海的古籍,可以组成大小不等的任意文本集合,具有不同维度的数据特征。对它们进行基于字词、语句、篇体等方面的统计,可以获得不同于纸本阅读的认知。
对古籍进行散点透视
谷歌与哈佛大学利用其共同开发的数据库对公元1800—2000年出版的近520万册书籍的单词和短语的使用频率进行统计,任意词或词组在过去数百年典籍中的出现频率与变化趋势得以清晰呈现。这一词频统计器广泛应用于如探索名物的兴衰沿革、话题的热度变化、人物或群体的影响力等研究。
同样,大数据时代下新的技术和研究思路为弥补纸质古籍在结构化整理、大量资料汇聚排列、关系立体化勾连呈现等方面的不足提供了可能性。我们利用《国学宝典》数据库收录的超一万种逾22亿字的历代古籍精良数据,在其中筛选出最为核心的经典近百部,对其从用字量、用字比(TTR_H)、字频等不同角度进行统计,将时代与文体来源广泛的文献以前人不曾设想过的方式进行关联比较,获得了一系列涉及汉语史、文体学、知识考古学、蒙学研究、近代文白转型等众多领域与交叉学科的重大命题与发现,是“数字映射经典,技术更新人文”的有效例证。
纵向概览从先秦到清代典籍数据,首先可以关注到的是单部经典总字数和用字量的渐增趋势。显然,前者与文献的物质形态的变化发展直接相关,后者除了受中古汉语双音化等自身发展因素的影响之外,同样与汉代至中古以来总体书籍量的增长及社会的知识好尚有关。用字量排名靠前的首先是知识性工具书与承担识字教材功能的蒙学读本,如《尔雅》(3360字)、《水经注》(4490字)、《古文观止》(3863字)等。汉代以降,士人逐渐重视学术与社会观点的积累以及人生精华的总结,故而其著述常有丰厚渊博的知识性特质。“究天人之际,通古今之变”的《史记》与“言其大也,则焘天载地;说其细也,则沦于无垠”的《淮南子》用字量分别为4730字与3900字,在参与统计的上古至中古文献中十分突出,已可与明清长篇章回体小说作品比肩(四大名著和《聊斋志异》用字量在3931~4936字之间)。 |