专业资讯丨中国历代人物传记资料库(CBDB)
转载自微信公众号“数字人文资讯”
CBDB的长期目标是对中国史料中所有重要的传记信息进行系统性收集,免费供学术研究使用。项目人员会定期对资料库中的数据进行扩充,同时也在不断录入唐、五代、辽、宋、金、元、明、清等朝代的新的人物传记信息。
CBDB的原形是Robert M. Hartwell(1932 - 1996)的研究项目。Hartwell教授最后将他的资产遗赠给了哈佛大学燕京学社(Harvard-Yenching Institute),其中就包括最初版的资料库, 不过燕京学社后来又放弃了CBDB的所有权。
如今,CBDB已经发展成为一个联合项目,由费正清中国研究中心(Fairbank Center for Chinese Studies at Harvard University)、中国台湾“中研院”历史语言研究所(Institute of History and Philology of Academia Sinica)和北京大学中国古代史研究中心(Center for Research on Ancient Chinese History at Peking University)联合开发。
CBDB的历史
CBDB的原形是Robert M. Hartwell为“中国历史软件有限公司(China Historical Software, Inc.)”开发设计的一个软件项目和数据集。Hartwell教授将资产遗赠给哈佛大学燕京学社后,燕京学社才主持开展了CBDB项目。最初,资料库是MS-DOS下的dBase格式。在2004 – 2005年间,Michael A. Fuller对资料库进行了重新设计,改为适用于FoxPro和MS Access的应用程序,分别命名为CBDBWin和CBDB.mdb,应用程序资料库的内容则还是来自于Hartwell教授。北京大学中国古代史研究中心已经根据中国台湾“中研院”历史语言研究所提供的《宋人传记资料索引》对资料库内容进行了扩充。自2006年起,有关应用程序的进一步工作都交由陈松负责。
▲CBDB网站访问者可视化分布图
从在芝加哥大学(University of Chicago)开启学术生涯,到在宾夕法尼亚大学(University of Pennsylvania)担任终身教授,再到退休后在怀俄明州生活,Robert M. Hartwell直至去世前都极为关注中国历史上的社会与经济变化。Hartwell教授依据他的主要研究内容——中古(中唐至元朝)史料,开发了大量意义重大的研究辅助工具,并发表了一系列极具影响力的研究论文。在阅读Hartwell的著作时,读者立刻就能意识到,他的每一个论点都引用了大量的资料,并且支持性数据的体积也非常大。事实上,Hartwell教授在意识到学术文献中缺少这种研究后,就开始自己创建大范围的数据集,并一直致力于大型数据集合的建设。到20世纪70年代中期,他已经独立完成了程序设计,为中国历史研究收集到了有史以来覆盖面最广的人物传记数据。而且Hartwell教授直至1995年去世前,都在不断完善这项成果。20世纪90年代早期,他逐渐将注意力转向数据的学术应用准备工作。在这一段时间,Hartwell教授成立了咨询委员会,即后来的“中国历史研究有限公司(Chinese Historical Studies, Inc.)”,由哈佛大学的Peter K. Bol主持,向成员提供Hartwell教授的数据集和应用程序。
Hartwell教授去世时,资料库的多元传记和谱系资料已经覆盖了超过25000位历史人物,索引数据库也有超过4500本书的书目信息,并且提供多种以地理信息为参照系的对象和功能。Hartwell的目标就是要好好利用类型如此丰富的中国历史文献,比如政府专为公众编写的资料(如国家史学记录)和出于私人目的编写的资料(如墓志铭)等。在CBDB中,我们可以依照不同情景对历史人物进行分析:比如可以根据中央地方或行政机构查看人物分布;可以根据官僚阶级和品级查看人物分布,也可以根据亲属网络关系查看人物分布等。CBDB所包含的人物资料越丰富,所能绘制的家族树就越茂密,人物之间的亲属关系和联姻情况也就越清晰。除了从人物视角考虑外,我们也可以根据不同地点进行分析,比如看看某个特定地方培养仕子和高官的能力是如何随时间而变化的。CBDB还可以将某一特定时期、特定地点的人所写的文章进行相互关联。未来也许还会出现更多的数据使用方式。
如今,Robert Hartwell的数据库已经完全并入“中国历史人物传记资料库”,是同类型资料库中数据最全面的一个;它对于中古(中唐至元朝)历史研究的价值是无法估量的,未来也不太可能被超越。但是就技术而言,Hartwell教授去世时的资料库基本上还是在20世纪90年代早期的信息技术大环境下开发出来的。而Michael Fuller通过开发FoxPro语言下的应用程序CBDBwin,让原先的数据库在Windows的环境下也可以正常使用,使得数据的检索与查询更加方便快捷。他开发的MS Access数据库使得从台式机录入新的数据成为可能,不过这一功能仅限于一台台式机使用。此外,还要感谢柳立言(Lau Nap-yin)教授对CBDB的支持,从2006年起,中国台湾“中研院”历史语言研究所开始为支持数据录入的在线应用开发提供资金支持。该平台于2007年春季正式上线,支持公众查询和报告的应用程序也随后在2008年秋季开发完毕。
2005年,北京大学中国古代史研究中心加入CBDB。在张希清教授和邓小南教授(曾与Hartwell在宾夕法尼亚大学共事一年)的指导下,一众研究生开始尽可能地对Hartwell录入的条目进行核查和修正,同时根据王德毅校订的数字版《宋人传记资料索引》——由中国台湾“中研院”历史语言研究所提供——录入新的条目。
2008年秋季,哈佛团队开始与计算机科学家合作,利用“正则表达式”等数据挖掘技术从数字化的传记资料中抽取数据。时至2009年春,大家都明显看出这种方式未来将远比任何人所预想的都要成功的多。2009年2月,哈佛大学燕京学院将CBDB的所有权转让给费正清中国研究中心。
CBDB近闻
1
2018年3月,Peter K. Bol教授在上海与北京中文在线数字出版集团、北京大学中国古代史研究中心签署了CBDB项目的合作协议,共同打造中国古籍数据的数字人文资源平台,希望能够“重构古文献研究服务新脉络,运用人工智慧科技,提高处理历史资料的效率和准确度,聚合更多主体并不断优化用户体验”。
2018年6月,中文在线在“2018中国高校图书馆发展论坛”上推出了“引得”CBDB数字人文资源平台。该平台现今共收录约420, 000个人物的传记资料、著作资料,由150余位专家学者提供学术支持。未来除了将开放全部人物传记资料外,还将拓展提供可视化研究工具以及UGC开放图文库服务。
▲“引得”CBDB数字人文资源平台主页
2
2018年10月18日,Peter K. Bol教授在“第九届上海国际图书馆论坛(SILF 2018)”的开幕式上作了题为《数字人文与中国学的信息基础架构》的主旨报告。报告对CBDB的发展历程以及CBDB如何借助信息技术服务于“中国学”的研究进行了全面介绍,更从关系型数据库、GIS空间分析等多个角度讲述了信息技术在数字人文研究中的重要作用。Peter K. Bol教授还表示日后将加强与上海图书馆在数字人文领域的合作。
3
上海图书馆建立了CBDB关联数据网站(cbdb.library.sh.cn),已经将CBDB中约420, 000个人物的传记资料发布为关联数据。该网站目前免费对外开放,将来可能会采取邀请制的注册方式。