各位老师、同学,大家好!很荣幸受付老师邀请,来到华中师大与诸位相互交流学习。今天我想讨论的主题是怎样做量化历史数据库,以及怎样开展相应的研究。 大约三年前,付老师就和我们讨论,考虑将量化历史数据库的建设与研究方法推广到华中师大。当时,国内学界刚刚开始注意量化数据库研究,而现在,你们已经开设了大数据历史基地班,真正推动着大数据历史研究人才的培养,这是很有眼光的。我个人认为,在今天这个时代,历史学家做研究,除了传统的历史学功底外,一些新技术方法的应用也不应忽略。实际上,技术应用不仅对研究很重要,对人才培养也很关键。20世纪90年代中期以来,全球高等教育界都出现了一个现象,即人文学科的影响力明显降低,很多学生不再对人文学科的学习有兴趣。甚至像哈佛这样的全球最顶尖高校,它的文理两科,包括基础人文学科,一直是引以为傲的资本,但50年来以人文学科为主业的学生比例从近40%下降到了20%。全美的这一比例则从14%下降到了7%。同样,国内也有类似现象。为什么社会对历史学这样的人文学科的认可度降低了?这里面当然有很多原因,但其中之一还是认为历史学学习的内容太过“空虚”,缺少足够的技术内涵,不利于学生在就业市场上的竞争。可见,加强相关技术的教育与培训,对历史学科吸引和培养人才也很重要。
我们还注意到一个有趣的现象,即当选择历史专业的学生在普遍减少的同时,一种新的大规模历史量化数据库的构建和研究却蔚然成风,历史材料对多学科发展的贡献大为提升了。这种历史大数据库最早开始于人口学研究,主要是利用人口普查和大规模调查构建起量化数据库。比如美国人口中心创建的“公共微观整合数据库”(Integrated Public Use Microdata Series,IPUMS)。微观数据(Microdata)指人口抽样调查和人口普查等包含的个人层面(Individuallevel)信息。这些富有学术价值的个人基本信息,如性别、年龄、婚姻、家庭状况、职业和出身等,广泛存在于全世界各国,内容和形式高度一致,适合连缀成超大数据库,进行国际比较研究,是新社会史和经济史研究的关键。历史学家是除统计机构外最早使用微观数据进行研究的学者。从1998年起,IPUMS首席科学家Robert McCaa先后说服了100多个国家的统计机构与IPUMS合作,将彼此的数据库连接起来并免费用于学术研究。目前,IPUMS包括19世纪以来多个国家,也包括中国第三次(1982年)、第四次(1990年)人口普查微观数据。数据还在不断增长,最明显的是从18世纪开始到20世纪中期的以数字抄本为基础的历史人口微观数据。2018年,IPUMS的数据总量扩展到了20亿人次记录。尽管建成初期,学界对这些数据库的利用、研究甚少,但从20世纪90年代中期以后,研究与利用迅速增加,取得了许多重要成果。以包括IPUMS在内的国际五大量化数据库而言,在20世纪90年代之前的20年里,仅有零星的发表援引相关数据库。这可能是因为这些数据库本身还在建设初期甚至尚未开始,很多内容和方法需要完善,其学术价值仍有待开发。进入90年代,尤其是1995年以后,情况发生了巨大转变。2006—2010年的五年,索引五个数据库的新增学术发表已经达到2360余篇。尽管这些学术成果中有很大一部分都是来自IPUMS所包含的当代人口统计数据,但是如果我们只统计三个纯历史微观数据库,即BALSAC、HSN和SEDD,其贡献的新增学术发表在2006—2010年也达到117篇,且近20年的增速与五个数据库总贡献发表数的增速几乎一致。受此影响,国际史学界正在兴起构建大型个人层面量化数据库的风气。最近十几年里,一些侧重东亚研究的历史学者和研究团体也意识到,像西方学术界构建与使用的这些与人口、社区等相关的量化史学数据,其原始材料在中国或东亚地区存在的要早得多和广泛得多。因此,一些东亚地区的历史人口微观数据库陆续得以建立,如美国学者李中清(James Z. Lee)、康文林(Cameron Campbell)从20世纪80年代起,前后花费了20多年时间,建立了基于八旗户口册和清代皇室族谱资料的中国多代人口数据库系列(China Multi-Generational Panel Data Series,CMGPD)。该系列数据库包含辽宁、双城和皇族三个子数据库,其中前两个已经在ICPSR网站上对全球学界免费公开。辽宁数据库涵盖了1749—1909年辽东地区26万人的150余万条记录。双城数据库涵盖了1866—1913年黑龙江双城县10万人的130余万条记录,并尝试与不同时段的家户地亩资料相连接。这些大规模、长时段的微观历史数据包含了丰富的人口和社会经济信息,且同时具有时间上的深度和空间上的广度,对人口统计学、家与家族、亲属关系、社会分层与流动、卫生健康等多个学术研究领域有重要价值。同时,以上介绍的这些量化数据库基本都以历史数据为主,但绝大部分研究并不集中在历史学领域,反而在其他学科,比如经济学、健康医学以及地质学等学科。所以,在今天这个时代,历史学本身的价值不仅没有降低,反而是提升了,关键是我们要提升自我的研究方法。当然,量化历史数据库的构建与研究,特别强调技术方法要适用于历史材料,而不是相反。在目前的技术条件下,确实存在一些材料和问题更适合使用这种研究方法,而另一些材料或问题则还不能很好地用这种方法来展开研究。一般来说,系统化、结构性的历史材料更适合开展量化历史数据库的构建与研究。就中国传统官方文献而言,至少有三类非常适合。第一,历代户籍材料。一般而言,中国自周朝就形成了国家性的户籍制度,秦统一后逐渐形成规模,经三国及南北朝时期的调整,隋唐后已经非常完备。这个过程中,户籍登记材料也逐渐完善与累积,明代以来的黄册更是蔚为壮观。这些连续长达2000多年的户口材料是数据库与定量研究的最好素材。第二,与户籍材料相伴随的历史同样悠久的土地及财产占有与分配登记材料。从战国以来,中国土地制度经历了从井田制、屯田制、均田制、府兵制、均税法、一条鞭法、摊丁入亩到现代“土改”的多次调整,但每个新制度下,对土地数量丈量、归属权益的明确以及相关赋税的负担都有庞大记录,这一重要材料一样非常适合数据库化研究。第三,至少自隋唐以来,考试(考核)就成为中国社会选拔精英人才的重要方式,历代皆有数量惊人的科考或官员铨选材料,这些材料历时长,系统化程度高,是不可多得的量化数据库素材。不过,随着技术发展,尤其是海量史料的数字化处理和数字文献内容抓取技术的发展,非结构、分散化史料的系统收集和数据构建也在逐渐成为可能,这也是我们团队最新研究项目试图尝试的方向。另外,一些传统认为比较难以量化研究的领域,如思想史、文化概念史等研究,其实也早就有一些量化数据库的开放和不错的研究成果。例如原先任职于香港中文大学的金观涛教授就建立了一个近代思想史数据库。他主要是把大量报纸文献上的文章输入电脑,释放海量的文献,然后以词频的方式来做研究。这个方法,其实有点类似于大家使用计算机在图书馆检索关键词。他后来分析这个词语在什么时候什么情况下出现,什么时间段出现频率比较高,这个词的出现时间和频次反映了怎样的思想文化和意识形态的转变。这种分析方法,建立在海量文献已经输入和构库的基础之上,一旦没有了这个基础,很多问题的研究也就无从展开了。从这个意义上讲,大数据历史研究能帮助我们发现很多新问题,甚至解决很多仅靠传统阅读难以解决的问题。数据库通常包含了某一范围内所有参与者或构成者的状况,能系统体现不同规模群体的多种信息。传统历史研究往往是基于历史学者的直觉来考虑作用与因果。即使运用数据,往往只是涉及较少维度的统计表格。然而,社会科学许多定量方法擅长多变量分析,可以同时比较多个因素与结果的相互关系,或者说在考虑到结果与其他因素相互关联的情况下,估计特定因素与结果的统计相关性。这不仅能帮助研究者更深入理解各种因素的变化与彼此关系,还能兼顾所有个体的影响与权重,一定程度上避免了选料时的疏漏与偏废。最近,我们团队正在开发、利用清代的“缙绅录”史料。缙绅录是记录职官的职掌、姓名、出身、籍贯、字号等基本情况的专书,清代保留至今的缙绅录文献规模浩大,提供了连续性的官员记录,是建立清代官员群体的大规模历史量化数据库的理想史料。缙绅录为学界提供了极为系统的个人层面微观数据,同时这些数据每季度出版,具有极好的历史连续性,而且至少几乎包含了1760—1911年所有清政府官员的信息。我们为此构建起了10个人左右的专业输入团队,全职从事该材料的输入工作,预计3年内能够完全输入电脑,但一些前期的研究已经开展了。与大多数制度史研究主要研究制度的文本相比,“缙绅录”数据库的构建和研究,将能直接从全面、系统的实践角度检验制度的操作与变异,对真正理解官员制度和社会运作会有极大帮助。但这种研究,显然是不可能依靠传统文献阅读方法实现的,它必须依靠数据库和量化分析才能完成。量化历史研究与传统史学研究是不同的,一方面,它可以弥补一些传统研究方法的不足,特别是在处理这种大规模的人口史料方面;另一方面,它是一项需要花费很多成本的工作,这里的成本既包括人力也包括资金,所以它更是一项集体的活动,需要团队合作完成。不过,虽然数据库建成的各方面要求会更高,但建成后即可向社会开放,而越来越多数据库在开放后又能够相互联系,从而会大大提高研究的效率和研究的深度。像我刚刚讲到的全球五大数据库,它绝不只是为了满足某个研究团队自身研究封闭使用,而是向全球学界开放的。如利用IPUMS所做的各类研究已超过万次,而其中绝大部分是由外部研究人员完成的。再比如李-康研究团队原来做的有关东北人口的历史数据库,现在也是在网上公开的。我们发现数据库最初公开的三年,用它来做研究的,要么是研究组成员,要么是合作过或指导过的学生。但最近几年,用它做研究的都是外部研究人员,而不是李-康研究团队的人员。接下来我想结合我个人的经历,介绍一下数据库建设与研究的一些具体经验。我是2007年博士毕业后,才决定和李中清教授合作,从事量化历史研究方面的博士后工作。之前我也没有专门学习过量化历史研究,但我本科的时候读过经济学双学位,也接触过统计课程和初步使用过SPSS这样的统计软件。加入李-康研究团队后,李中清教授、康文林教授对我们的统计分析,尤其是Stata软件的使用进行了短期的进一步辅导。不过,对于历史学者,这种辅导最关键的不是掌握最复杂的计算分析,而是理解统计软件的基本原理,知道它能做什么,不能做什么,从而帮助你在处理历史资料时,知道如何将技术运用在史料上是可行和合适的。李-康团队一直遵循的一条重要原则是历史材料是已然存在和无法改变的,任何技术和方法只能用来适应材料,而不能让材料来适应技术和方法。实际上,在团队合作中,很多具体分析是由熟悉史学研究的研究者提出的,而具体的操作则可以由专门的技术人员来完成,不过,作为研究者需要理解技术实现的过程并能够判断是否正确。实际上,构建量化数据库通常包括数据采集、数据分类、数据编码、数据存储、数据信息挖掘和定量分析等多个环节,数据库建成后还可能需要数据管理和维护等多种工作。且不说量化数据库研究的技术与方法对大多数历史学者来说是非常陌生的,即便是研究的组织与管理模式也大有不同。历史学者从事研究时多是“单打独斗”的,而构建大规模、量化史学数据库并对其进行分析与研究,需要多学科专业人员的合作,通常必须有一个研究团队才能实现。这种研究的组织模式与传统研究差异很大,无论对于经费还是合作管理都有相当高的要求,与以往的人文研究方式差别很大。李中清-康文林教授研究团队十多年来的经验、历程是互联网时代人文社会科学学科研究者相互连接,从独立走向合作的典型例子。自2003年开始,当时尚在美国密歇根大学任教的李中清教授和在美国加州大学洛杉矶分校任教的康文林教授便决定与一些青年学者和博士生、博士后们合作,建立一个国际化的历史学研究团队。这十多年来,李中清、康文林两位教授从美国安娜堡转到北京再到香港,但团队成员并没有跟随团队领导的地点转变而转变,而是根据研究的材料、工作条件等需要,广泛分散在包括美国、法国、荷兰、日本、中国在内的世界各地。团队的整体研究工作不仅没有因为分布越来越广泛而停滞,反而越来越有效率。开始时,成员们只能利用电子邮件汇报每周的工作。此后,研究组能够每周在固定时间,利用Skype召开网络讨论会,实时讨论各自的工作。而现在,成员们不仅每周定期召开Skype会议,为了讨论更深入,还会将各种研究数据与资料、写作中的稿件等上传到Dropbox、百度云盘等虚拟存储空间,更立体、丰富地进行学术工作交流。除了召开Skype会议,成员们还会根据不同研究主题的需要,构建起由不同成员参加的微信群,随时进行互动交流。在这十年里,研究团队完成了一些较有影响的研究项目,研究项目又大多与互联网及其相关技术有关。李-康研究组的经验说明,在互联网的支持下,距离给交流带来的障碍大为降低,具有共同兴趣的全球学者组建成团队的可能性大为增加。全球化研究团队的建立有许多重要意义,但其中比较特别的有两方面。首先,这种互联网化的研究团队对学术后备军的培养更有效率。团队中的青年学者或研究生们不会因为选题、工作关系离开团队核心学者,更不会因为在外地,甚至在外国工作而与其变得疏远,在学术上逐渐不再交流、合作。相反地,因为在新地点总会有不同的新材料和新的研究问题需要探讨,他们在研究组的每周例会讨论中反而变得特别活跃,从老师、同事处得到的帮助也越来越多。其次,团队成员的广泛分散,必然会丰富集体的研究材料和研究成果,从而更有效地推动团队研究产量的增加以贡献学界。同样以李-康研究组为例,随着成员的分布范围不断扩大,团队的研究材料逐渐从东北人口史料扩大到近现代大学生登记资料,再到山西地区近百个农村的系统、长期记录,以及清朝至民国官员记录、海外中国传教士资料和一些国外人口统计资料等,研究主题也越发多样。最后,我还想强调的是,与传统史学和其他社会科学的定性研究方法类似,定量方法的选择和应用,以及对分析结果的解读,同样会受到研究者的主观性影响。进行以量化数据库为基础的研究分析,研究者需要思考的首要问题是选取构建数据库的史料是否存在选择性偏误,即这些材料能够在多大程度上反映当时的社会现实,能够反映哪些特定人群、特定条件下的具体情况。只有对数据来源的选择性有充分认识,才可能避免错误解释分析结果或过分夸大结论的代表性。而这些必要的历史背景往往是通过传统文本分析获得的。因此,史学研究方法一方面可以深化对定量分析结果的理解和解释,另一方面也可以对定量分析结果和定性研究结果进行经验比较,通过多种研究方法的结合减少主观性风险的影响,提高对研究对象全面、深入的整体认识。“数量分析本身不是目的,只是认识的手段”,这些定性分析,对于以复杂的人类行为为研究主题的社会科学研究必不可少。对新一代历史学者来说,要将科学方法融入传统研究中去,既不能因固守旧,也不可以盲目推崇新方法而完全抛弃旧方法。对“大数据”时代量化研究的大趋势,历史学者绝非“赤手空拳”,只能消极被动接受转变,而是有其独到的比较优势。历史学者掌握的众多史料、丰富的历史知识以及考据等研究方法对量化研究历史资料来说都是必需的。量化数据库方法要在历史乃至社会科学研究领域发挥更大价值,历史学者的作用不可或缺。实际上,尽管使用数据进行分析的多为非历史学者,但前文介绍的社会科学最重要的公开数据整合中心之一ICPSR和几个重要量化历史数据库IPUMS、HSN、SEDD、CMGPD的项目发起人或领导者都获得历史学博士学位。这说明历史学者不仅能够参与,而且对于这些国际主要量化数据库项目的成功有不可替代的作用。(以上是中心教授梁晨在华中师大的演讲,转自微信公众号“鸣沙”)