近些年來,全球史學界和圖書館界掀起一股構建歷史數據庫的浪潮,主題、形式各異的歷史數據庫層出不窮,研究者所能掌握的史料規模呈現出巨量增長。如何做到既有量的增長,又有研究方法的提升,特別是發揮數據史料的特點,形成比肩甚至超越過往紙質史料利用深度和效率的研究,推動學術發展,便成了亟待探索的新問題。筆者認為,“互聯”“互通”是互聯網的重要特點,歷史數據庫的構建與研究,應重視數據庫自身信息的“內連接”和數據庫之間信息的“外連接”,以盡可能地實現“數據追蹤”,由此方能發揮電子數據的優勢,推動新技術環境下史學研究的深化發展。
歷史數據庫的“內”與“外”
“內連接”和“外連接”本是信息學科針對關系型數據庫(relational databases)進行數據查詢、分析時所采取的方法,本文將此概念移用于歷史數據庫的構建與研究。“內連接”主要包含兩層含義:一是指某一數據庫在建設時力爭利用多來源史料中能相互匹配的信息,進行信息連接以擴充數據庫內容;二是指利用某一數據庫進行研究時,應注意其中信息的相互連接,以拉長研究的時段、代際或擴大空間范圍等。“外連接”主要是指不同主題但內容、關系等方面具有連接可能的數據庫,在開放的前提下,實現相應數據信息的連接,從而突破單一數據庫主題明確但信息范圍相對局限的制約,從學術研究層面真正實現數據庫建設與研究的“共享”與“共贏”。
歷史數據庫信息“內連接”與“外連接”的最終目的,是將存儲于各主題數據庫中的相關信息逐步從靜態推向動態,實現“數據追蹤”。如利用多種材料或不同數據庫的互相連接,可以連綴起個人和某些群體不同時間節點的信息,形成一種動態化的“追蹤數據”。“追蹤數據”的形成,使得某些歷史人物甚至群體的經歷更加豐富或連續起來,這對理解和研究歷史人群的社會行為具有極高的學術價值。
連接不同史料與信息
即便是單一主題的歷史數據庫,其包含的具體史料也是規模龐大、類型繁多的。這些史料中的某些信息是能被連接起來、形成數據鏈的。如“中國近現代思想史專業數據庫(1830—1930)”收錄了多種晚清民國的報刊和個人著述,總字數達到1.2億。一些學者通過檢索的方式和統計工具的幫助,將某一具體概念或思想主題(如“主義”“青年”“民族”等)連接起來,從而能夠分析這些近現代史上重要概念的形成與歷史演變,“驗證”或“突破”了既有的研究結論,實現了學術創新。
人物主題數據庫是較為常見的一類歷史數據庫,通過內部連接,往往能夠形成以人物為主干的信息鏈條。筆者正在建設的“民國大學生信息數據庫”,即是以個人基本信息為基礎的數據庫。數據庫中每一名學生的信息既有個人自身的,也有家長和保證人的。通過數據庫內部連接計算發現,很多家長本身也是大學生,能夠連接形成追蹤數據,進而獲得三代人的基本信息,這為中國近現代史上多代際教育獲得與社會流動研究提供了堅實的數據基礎。以親友為主的保證人通常是學生最主要的社會關系,將不同學生的保證人信息進行連接,可以發現很多學生具有同一家長、共同親友,也就挖掘出了學生的家庭、社會關系網絡。
連接不同主題數據庫
中國歷代人物傳記資料庫(簡稱CBDB)的領導者、哈佛大學教授包弼德指出,隨著“數字人文”的發展,歷史數據庫的建設大為增加,數字數據(史料)迅速膨脹,數據生產者之間的協作也就越來越重要。通過數據庫的開放和協作,形成不同主題數據庫的信息連接,是其中最能發揮數字數據優勢、推動學術研究的一種方法。
“民國大學生信息數據庫”收錄的雖然主要是民國時期教育精英的基本信息,但數據庫中早期學生的家長,往往上溯到晚清時期。香港科技大學教授康文林領導建設的清代《縉紳錄》數據庫,包含整個清代官員信息,其中有一些光緒、宣統年間的數據,經過計算能夠與“民國大學生信息數據庫”中的學生家長信息進行匹配,這對理解民國大學生的家庭來源以及近代教育轉型對家庭的影響都頗有助益。而《縉紳錄》數據庫本身又能夠與CBDB數據庫中的明清人物、進士題名錄等材料連接起來,這些官員人物的個人信息也由此大為豐富起來。
“外連接”還可以應用于主題數據庫與大型電子文獻數據庫的連接。越來越多的報紙、期刊乃至各類史料文獻都在被逐步電子化,這類文獻數據庫中蘊含有大量的尚未結構化的歷史信息。雖然多數數據庫只提供開放檢索而不能進行后臺數據的直接抓取,但依靠手動檢索和比對考證,還是能夠與一些主題數據庫實現系統性數據連接的。“民國大學生信息數據庫”收錄了1929年前清華大學全部的庚款留美生。這批留美生是民國時期最為成功的留美者,梳理他們的職業發展軌跡,對理解民國社會發展和近代化轉型等問題意義重大。但即便依靠“內連接”,主要是清華校方1920—1937年間多次出版的《同學錄》等材料,依然只能獲得60%留美生的唯一職業信息。而通過與目前已開放的各類近現代報刊數據庫(如上海圖書館的“晚清、民國期刊全文數據庫”)、現代出版物數據庫(讀秀、超星等)等,手動逐一檢索每位留學生,能夠連接上大量的職業信息。到目前,留美生的平均職業屬已經從0.6個上升到7個左右,這為研究清華留美生的職業發展及其與中國近代化的關系等問題提供了可能。
數據追蹤成為重要研究方法
這些研究實踐讓我們體會到,過去學界多認為利用數據庫進行史學研究,最重要的優點是對史料的大規模使用,能夠“廣”而“全”地使用史料。現在,隨著越來越多的數據庫被建設起來,并向學界開放,數據庫之間進行數據的各種“連接”的可能大為增加,“數據追蹤”越來越成為數據庫研究的重要方法。數據庫研究的特長,不僅能夠“廣”而“全”,也越來越能夠“專”且“深”。
在進行歷史數據庫數據連接時還有一些問題需要注意。對“內連接”而言,數據連接必須合理和可靠。比如一些人物關系型數據庫的數據連接,因為同名現象的普遍存在,研究者顯然不能僅僅根據姓名這一單一信息進行連接,更何況同一人物也可能存在多個姓名(字/號)的問題。研究者需要在盡可能設定如年齡、籍貫、畢業學校等限制性條件的同時,還要進行必要的人工復檢。
對“外連接”而言,數據庫的開放至為關鍵。不僅是前臺數據檢索的開放,更需要后臺接口的開放,這樣研究者才能植入相應的軟件程序進行數據提取、分析等工作。香港科技大學李中清、康文林研究團隊的中國多世代人口數據庫(CMGPD)、哈佛大學包弼德領導的CBDB數據庫等都實現了這樣的全面開放,但目前能如此做的歷史數據庫還很少。這是因為不僅數據庫開發工作的成果認定尚缺少明確的學術標準,數據庫開放后的知識產權保護更是難題。不過,當前在自然科學和生命科學領域,已經建設起研究數據共享的規范,這對社會科學和人文學科的影響正在逐漸凸顯,越來越多的學術基金和學術期刊已經逐漸要求研究者提供原始數據。如果說,最初希望數據公開的動因是檢驗已經發表的分析結果,現在,學界則越來越意識到共享數據還有更重要的目的:一是數據庫開放后,其他研究者可以用來進行完全不同的課題研究。這或許與數據庫建立者的初衷不同,但無疑提高了數據庫的使用效率;二是與其他數據庫結合,構建覆蓋范圍更大的數據庫。隨著這種認識和數據庫連接的重要性不斷為學者們所接受,學術界應盡快開始討論、制定數據庫開放標準和成果保護準則。
(作者單位:南京大學歷史學院暨數字史學研究中心)