• <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    

    舊版網(wǎng)站入口

    站內(nèi)搜索

    推動數(shù)據(jù)連接 促進(jìn)史學(xué)研究

    梁晨2019年07月29日11:11來源:中國社會科學(xué)網(wǎng)-中國社會科學(xué)報

    原標(biāo)題:推動數(shù)據(jù)連接 促進(jìn)史學(xué)研究

    近些年來,全球史學(xué)界和圖書館界掀起一股構(gòu)建歷史數(shù)據(jù)庫的浪潮,主題、形式各異的歷史數(shù)據(jù)庫層出不窮,研究者所能掌握的史料規(guī)模呈現(xiàn)出巨量增長。如何做到既有量的增長,又有研究方法的提升,特別是發(fā)揮數(shù)據(jù)史料的特點,形成比肩甚至超越過往紙質(zhì)史料利用深度和效率的研究,推動學(xué)術(shù)發(fā)展,便成了亟待探索的新問題。筆者認(rèn)為,“互聯(lián)”“互通”是互聯(lián)網(wǎng)的重要特點,歷史數(shù)據(jù)庫的構(gòu)建與研究,應(yīng)重視數(shù)據(jù)庫自身信息的“內(nèi)連接”和數(shù)據(jù)庫之間信息的“外連接”,以盡可能地實現(xiàn)“數(shù)據(jù)追蹤”,由此方能發(fā)揮電子數(shù)據(jù)的優(yōu)勢,推動新技術(shù)環(huán)境下史學(xué)研究的深化發(fā)展。

    歷史數(shù)據(jù)庫的“內(nèi)”與“外”

    “內(nèi)連接”和“外連接”本是信息學(xué)科針對關(guān)系型數(shù)據(jù)庫(relational databases)進(jìn)行數(shù)據(jù)查詢、分析時所采取的方法,本文將此概念移用于歷史數(shù)據(jù)庫的構(gòu)建與研究。“內(nèi)連接”主要包含兩層含義:一是指某一數(shù)據(jù)庫在建設(shè)時力爭利用多來源史料中能相互匹配的信息,進(jìn)行信息連接以擴充數(shù)據(jù)庫內(nèi)容;二是指利用某一數(shù)據(jù)庫進(jìn)行研究時,應(yīng)注意其中信息的相互連接,以拉長研究的時段、代際或擴大空間范圍等。“外連接”主要是指不同主題但內(nèi)容、關(guān)系等方面具有連接可能的數(shù)據(jù)庫,在開放的前提下,實現(xiàn)相應(yīng)數(shù)據(jù)信息的連接,從而突破單一數(shù)據(jù)庫主題明確但信息范圍相對局限的制約,從學(xué)術(shù)研究層面真正實現(xiàn)數(shù)據(jù)庫建設(shè)與研究的“共享”與“共贏”。

    歷史數(shù)據(jù)庫信息“內(nèi)連接”與“外連接”的最終目的,是將存儲于各主題數(shù)據(jù)庫中的相關(guān)信息逐步從靜態(tài)推向動態(tài),實現(xiàn)“數(shù)據(jù)追蹤”。如利用多種材料或不同數(shù)據(jù)庫的互相連接,可以連綴起個人和某些群體不同時間節(jié)點的信息,形成一種動態(tài)化的“追蹤數(shù)據(jù)”。“追蹤數(shù)據(jù)”的形成,使得某些歷史人物甚至群體的經(jīng)歷更加豐富或連續(xù)起來,這對理解和研究歷史人群的社會行為具有極高的學(xué)術(shù)價值。

    連接不同史料與信息

    即便是單一主題的歷史數(shù)據(jù)庫,其包含的具體史料也是規(guī)模龐大、類型繁多的。這些史料中的某些信息是能被連接起來、形成數(shù)據(jù)鏈的。如“中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫(1830—1930)”收錄了多種晚清民國的報刊和個人著述,總字?jǐn)?shù)達(dá)到1.2億。一些學(xué)者通過檢索的方式和統(tǒng)計工具的幫助,將某一具體概念或思想主題(如“主義”“青年”“民族”等)連接起來,從而能夠分析這些近現(xiàn)代史上重要概念的形成與歷史演變,“驗證”或“突破”了既有的研究結(jié)論,實現(xiàn)了學(xué)術(shù)創(chuàng)新。

    人物主題數(shù)據(jù)庫是較為常見的一類歷史數(shù)據(jù)庫,通過內(nèi)部連接,往往能夠形成以人物為主干的信息鏈條。筆者正在建設(shè)的“民國大學(xué)生信息數(shù)據(jù)庫”,即是以個人基本信息為基礎(chǔ)的數(shù)據(jù)庫。數(shù)據(jù)庫中每一名學(xué)生的信息既有個人自身的,也有家長和保證人的。通過數(shù)據(jù)庫內(nèi)部連接計算發(fā)現(xiàn),很多家長本身也是大學(xué)生,能夠連接形成追蹤數(shù)據(jù),進(jìn)而獲得三代人的基本信息,這為中國近現(xiàn)代史上多代際教育獲得與社會流動研究提供了堅實的數(shù)據(jù)基礎(chǔ)。以親友為主的保證人通常是學(xué)生最主要的社會關(guān)系,將不同學(xué)生的保證人信息進(jìn)行連接,可以發(fā)現(xiàn)很多學(xué)生具有同一家長、共同親友,也就挖掘出了學(xué)生的家庭、社會關(guān)系網(wǎng)絡(luò)。

    連接不同主題數(shù)據(jù)庫

    中國歷代人物傳記資料庫(簡稱CBDB)的領(lǐng)導(dǎo)者、哈佛大學(xué)教授包弼德指出,隨著“數(shù)字人文”的發(fā)展,歷史數(shù)據(jù)庫的建設(shè)大為增加,數(shù)字?jǐn)?shù)據(jù)(史料)迅速膨脹,數(shù)據(jù)生產(chǎn)者之間的協(xié)作也就越來越重要。通過數(shù)據(jù)庫的開放和協(xié)作,形成不同主題數(shù)據(jù)庫的信息連接,是其中最能發(fā)揮數(shù)字?jǐn)?shù)據(jù)優(yōu)勢、推動學(xué)術(shù)研究的一種方法。

    “民國大學(xué)生信息數(shù)據(jù)庫”收錄的雖然主要是民國時期教育精英的基本信息,但數(shù)據(jù)庫中早期學(xué)生的家長,往往上溯到晚清時期。香港科技大學(xué)教授康文林領(lǐng)導(dǎo)建設(shè)的清代《縉紳錄》數(shù)據(jù)庫,包含整個清代官員信息,其中有一些光緒、宣統(tǒng)年間的數(shù)據(jù),經(jīng)過計算能夠與“民國大學(xué)生信息數(shù)據(jù)庫”中的學(xué)生家長信息進(jìn)行匹配,這對理解民國大學(xué)生的家庭來源以及近代教育轉(zhuǎn)型對家庭的影響都頗有助益。而《縉紳錄》數(shù)據(jù)庫本身又能夠與CBDB數(shù)據(jù)庫中的明清人物、進(jìn)士題名錄等材料連接起來,這些官員人物的個人信息也由此大為豐富起來。

    “外連接”還可以應(yīng)用于主題數(shù)據(jù)庫與大型電子文獻(xiàn)數(shù)據(jù)庫的連接。越來越多的報紙、期刊乃至各類史料文獻(xiàn)都在被逐步電子化,這類文獻(xiàn)數(shù)據(jù)庫中蘊含有大量的尚未結(jié)構(gòu)化的歷史信息。雖然多數(shù)數(shù)據(jù)庫只提供開放檢索而不能進(jìn)行后臺數(shù)據(jù)的直接抓取,但依靠手動檢索和比對考證,還是能夠與一些主題數(shù)據(jù)庫實現(xiàn)系統(tǒng)性數(shù)據(jù)連接的。“民國大學(xué)生信息數(shù)據(jù)庫”收錄了1929年前清華大學(xué)全部的庚款留美生。這批留美生是民國時期最為成功的留美者,梳理他們的職業(yè)發(fā)展軌跡,對理解民國社會發(fā)展和近代化轉(zhuǎn)型等問題意義重大。但即便依靠“內(nèi)連接”,主要是清華校方1920—1937年間多次出版的《同學(xué)錄》等材料,依然只能獲得60%留美生的唯一職業(yè)信息。而通過與目前已開放的各類近現(xiàn)代報刊數(shù)據(jù)庫(如上海圖書館的“晚清、民國期刊全文數(shù)據(jù)庫”)、現(xiàn)代出版物數(shù)據(jù)庫(讀秀、超星等)等,手動逐一檢索每位留學(xué)生,能夠連接上大量的職業(yè)信息。到目前,留美生的平均職業(yè)屬已經(jīng)從0.6個上升到7個左右,這為研究清華留美生的職業(yè)發(fā)展及其與中國近代化的關(guān)系等問題提供了可能。

    數(shù)據(jù)追蹤成為重要研究方法

    這些研究實踐讓我們體會到,過去學(xué)界多認(rèn)為利用數(shù)據(jù)庫進(jìn)行史學(xué)研究,最重要的優(yōu)點是對史料的大規(guī)模使用,能夠“廣”而“全”地使用史料。現(xiàn)在,隨著越來越多的數(shù)據(jù)庫被建設(shè)起來,并向?qū)W界開放,數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)的各種“連接”的可能大為增加,“數(shù)據(jù)追蹤”越來越成為數(shù)據(jù)庫研究的重要方法。數(shù)據(jù)庫研究的特長,不僅能夠“廣”而“全”,也越來越能夠“專”且“深”。

    在進(jìn)行歷史數(shù)據(jù)庫數(shù)據(jù)連接時還有一些問題需要注意。對“內(nèi)連接”而言,數(shù)據(jù)連接必須合理和可靠。比如一些人物關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)連接,因為同名現(xiàn)象的普遍存在,研究者顯然不能僅僅根據(jù)姓名這一單一信息進(jìn)行連接,更何況同一人物也可能存在多個姓名(字/號)的問題。研究者需要在盡可能設(shè)定如年齡、籍貫、畢業(yè)學(xué)校等限制性條件的同時,還要進(jìn)行必要的人工復(fù)檢。

    對“外連接”而言,數(shù)據(jù)庫的開放至為關(guān)鍵。不僅是前臺數(shù)據(jù)檢索的開放,更需要后臺接口的開放,這樣研究者才能植入相應(yīng)的軟件程序進(jìn)行數(shù)據(jù)提取、分析等工作。香港科技大學(xué)李中清、康文林研究團(tuán)隊的中國多世代人口數(shù)據(jù)庫(CMGPD)、哈佛大學(xué)包弼德領(lǐng)導(dǎo)的CBDB數(shù)據(jù)庫等都實現(xiàn)了這樣的全面開放,但目前能如此做的歷史數(shù)據(jù)庫還很少。這是因為不僅數(shù)據(jù)庫開發(fā)工作的成果認(rèn)定尚缺少明確的學(xué)術(shù)標(biāo)準(zhǔn),數(shù)據(jù)庫開放后的知識產(chǎn)權(quán)保護(hù)更是難題。不過,當(dāng)前在自然科學(xué)和生命科學(xué)領(lǐng)域,已經(jīng)建設(shè)起研究數(shù)據(jù)共享的規(guī)范,這對社會科學(xué)和人文學(xué)科的影響正在逐漸凸顯,越來越多的學(xué)術(shù)基金和學(xué)術(shù)期刊已經(jīng)逐漸要求研究者提供原始數(shù)據(jù)。如果說,最初希望數(shù)據(jù)公開的動因是檢驗已經(jīng)發(fā)表的分析結(jié)果,現(xiàn)在,學(xué)界則越來越意識到共享數(shù)據(jù)還有更重要的目的:一是數(shù)據(jù)庫開放后,其他研究者可以用來進(jìn)行完全不同的課題研究。這或許與數(shù)據(jù)庫建立者的初衷不同,但無疑提高了數(shù)據(jù)庫的使用效率;二是與其他數(shù)據(jù)庫結(jié)合,構(gòu)建覆蓋范圍更大的數(shù)據(jù)庫。隨著這種認(rèn)識和數(shù)據(jù)庫連接的重要性不斷為學(xué)者們所接受,學(xué)術(shù)界應(yīng)盡快開始討論、制定數(shù)據(jù)庫開放標(biāo)準(zhǔn)和成果保護(hù)準(zhǔn)則。

     (作者單位:南京大學(xué)歷史學(xué)院暨數(shù)字史學(xué)研究中心)

    (責(zé)編:孫爽、艾雯)
    国产精品亚洲综合五月天| 国产大陆亚洲精品国产| 精品亚洲视频在线观看| 精品久久久久久蜜臂a∨| 国产精品无码久久久久久| 国产精品天天在线| 精品人妻码一区二区三区| 久久精品成人影院| 欧美精品VIDEOSEX性欧美| 久久精品天天中文字幕人妻 | 国产精品无码无卡无需播放器| 精品国产sm捆绑最大网免费站| 国产精品公开免费视频| 国产91大片精品一区在线观看| 青青热久久久久综合精品| 国产SUV精品一区二区88L| 精品国产三级a∨在线| 久久国产精品久久精品国产| 一本大道无码日韩精品影视| 亚洲精品天堂成人片AV在线播放| 99视频精品全部在线| 热99RE久久精品这里都是精品免费 | 国产四虎免费精品视频| 国产成人精品白浆久久69| 国产精品JIZZ在线观看老狼| 国产精品久久久久久久久久久不卡 | 国产91成人精品亚洲精品| 亚洲精品一卡2卡3卡四卡乱码| 久久99国产这里有精品视| 国语自产精品视频| 成人国产精品一区二区网站 | 国产在线麻豆精品观看| 亚洲a∨无码精品色午夜| 亚洲国产精品人久久电影| 久久国产精品免费看| 中文字幕精品一区二区精品| 一本大道无码日韩精品影视| 精品乱码久久久久久中文字幕 | 久久99精品久久只有精品| 亚洲国产精品乱码一区二区| 日韩精品无码人成视频手机|