大連理工大學(xué)裘江南副教授主持完成的國(guó)家社會(huì)科學(xué)基金項(xiàng)目《主題圖的語(yǔ)義相關(guān)度評(píng)價(jià)方法研究》(項(xiàng)目批準(zhǔn)號(hào)為07CTQ006),最終成果為同名研究報(bào)告和論文集。課題組成員有:王寧、葉鑫、曲剛、李麗冬、王帶弟、羅志成。
當(dāng)前,由于信息與知識(shí)類型的多樣性、存在方式各異、對(duì)知識(shí)整合與檢索需求的提高等因素,導(dǎo)致知識(shí)組織的理論和方法日益復(fù)雜化,傳統(tǒng)的知識(shí)組織技術(shù)的缺陷也逐漸顯露,而有效的知識(shí)組織方法需要調(diào)和日益豐富的語(yǔ)義內(nèi)涵與易于計(jì)算機(jī)進(jìn)行信息處理兩者之間的矛盾。
作為一種新興的數(shù)字化本體類知識(shí)組織技術(shù),主題圖是一種語(yǔ)義中度的概念關(guān)聯(lián)類知識(shí)組織方法,它的語(yǔ)義適度性既確保了組織知識(shí)的語(yǔ)義特征,又提供了易于計(jì)算機(jī)理解的表示方式,有效調(diào)和了知識(shí)組織中的兩個(gè)矛盾,因此對(duì)主題圖等概念關(guān)聯(lián)類知識(shí)組織體系的研究與應(yīng)用成為新的焦點(diǎn),但主題圖的技術(shù)存在下列局限:一是主題圖技術(shù)框架中雖然可定義主題之間的各種關(guān)聯(lián),但并沒有給出主題間、主題和資源間的相關(guān)度評(píng)價(jià)方法,特別是缺乏主題間的語(yǔ)義相關(guān)度評(píng)價(jià)研究。二是現(xiàn)有的主題間關(guān)聯(lián)只局限在彼此有直接關(guān)聯(lián)的主題之間,并沒有定義間接關(guān)聯(lián),即對(duì)非直接關(guān)聯(lián)的主題之間的語(yǔ)義相關(guān)性傳遞問(wèn)題缺乏系統(tǒng)研究。三是引文分析中采用“關(guān)鍵詞共現(xiàn)方法”也可用來(lái)評(píng)價(jià)主題間的相關(guān)程度,但該方法的準(zhǔn)確程度有賴于語(yǔ)境的質(zhì)量及文獻(xiàn)樣本的數(shù)量,具有一定的局限性。綜上所述,有必要通過(guò)對(duì)主題圖語(yǔ)義元素、語(yǔ)義結(jié)構(gòu)及語(yǔ)義傳遞的基礎(chǔ)研究工作,探討基于計(jì)算語(yǔ)言學(xué)的方法來(lái)評(píng)價(jià)主題圖的語(yǔ)義相關(guān)度。成果的基本思路和主要內(nèi)容如下:
研究目的和意義
研究目的有以下幾個(gè)方面:一是構(gòu)造主題圖中主題間及主題與資源間的語(yǔ)義相關(guān)度評(píng)價(jià)方法,實(shí)現(xiàn)主題圖中主題間及主題與資源間的關(guān)聯(lián)量化;二是發(fā)現(xiàn)主題圖中間接關(guān)聯(lián)主題間的語(yǔ)義傳遞規(guī)律,并構(gòu)建語(yǔ)義傳遞體系,實(shí)現(xiàn)語(yǔ)義傳遞的計(jì)算機(jī)模擬,并將其嵌入語(yǔ)義相關(guān)度評(píng)價(jià)方法;三是采用主題圖的語(yǔ)義相關(guān)度評(píng)價(jià)方法成果研究基于關(guān)聯(lián)量化的主題圖知識(shí)組織方法,將其應(yīng)用于知識(shí)導(dǎo)航系統(tǒng)并對(duì)評(píng)價(jià)方法進(jìn)行完善。
研究的意義在于:一是通過(guò)系統(tǒng)分析主題圖的語(yǔ)義結(jié)構(gòu)和主題間的關(guān)系類型的基礎(chǔ)上,建立各種類型關(guān)系的語(yǔ)義相關(guān)度評(píng)價(jià)算法。這種基于主題圖語(yǔ)義結(jié)構(gòu)的評(píng)價(jià)方法,能夠依據(jù)主題圖的結(jié)構(gòu)快速對(duì)主題間的語(yǔ)義關(guān)聯(lián)進(jìn)行量化。同時(shí),也可克服關(guān)鍵詞共現(xiàn)方法的準(zhǔn)確程度有賴于語(yǔ)境的質(zhì)量及文獻(xiàn)樣本的數(shù)量的缺點(diǎn);二是通過(guò)分析主題圖中各種關(guān)系類型的語(yǔ)義傳遞特性,建立非直接關(guān)聯(lián)的主題間的語(yǔ)義相關(guān)度評(píng)價(jià)方法,有利于揭示主題圖中語(yǔ)義傳遞的變化規(guī)律;三是為主題圖引入量化的語(yǔ)義相關(guān)度評(píng)價(jià)方法,完善基于主題圖的概念關(guān)聯(lián)類知識(shí)組織的方法和技術(shù),并有利于更清晰地理解主題圖和相應(yīng)資源實(shí)體的語(yǔ)義結(jié)構(gòu),進(jìn)而提高知識(shí)檢索和導(dǎo)航的精確程度。
成果的主要內(nèi)容
研究中,首先,對(duì)現(xiàn)有的基于本體的語(yǔ)義相關(guān)度算法進(jìn)行了系統(tǒng)分析和比較。從各種語(yǔ)義相關(guān)度算法的實(shí)驗(yàn)測(cè)試結(jié)果中可以觀察到:語(yǔ)義相關(guān)度評(píng)價(jià)方法中考慮的關(guān)鍵要素越多,效果越好;在各種語(yǔ)義相關(guān)度評(píng)價(jià)方法中Jiang&Conrath評(píng)價(jià)方法的效果最好。在研究中選擇Jiang&Conrath方法作為項(xiàng)目組提出的主題圖語(yǔ)義相關(guān)度評(píng)價(jià)方法的比較標(biāo)準(zhǔn)。
其次,對(duì)主題圖的語(yǔ)義元素及語(yǔ)義結(jié)構(gòu)進(jìn)行了系統(tǒng)分析,研究總結(jié)了主題圖的語(yǔ)義元素特點(diǎn),給出了語(yǔ)義元素的形式化定義,并對(duì)語(yǔ)義關(guān)系的屬性和性質(zhì)進(jìn)行了深入分析,歸納出主題圖中六大類經(jīng)典型語(yǔ)義關(guān)系的屬性和性質(zhì)。同時(shí)以主題圖構(gòu)成及其包含的關(guān)系類型特點(diǎn)為基礎(chǔ),分析了主題圖語(yǔ)義結(jié)構(gòu),進(jìn)而指出其具有兩層、連通及類樹狀特征,并給出了主題圖中主題圖樹提取方法。
再則,針對(duì)主題圖中間接關(guān)聯(lián)主題之間的傳遞相關(guān)性問(wèn)題,首次研究了主題圖語(yǔ)義傳遞規(guī)律,并構(gòu)建了主題圖中的語(yǔ)義傳遞規(guī)則。具體包括語(yǔ)義傳遞符號(hào)定義、影響因素及判斷過(guò)程等三個(gè)基本方面,以及運(yùn)用關(guān)系性質(zhì)的研究成果和因子匹配理論等方法得出語(yǔ)義關(guān)系的傳遞規(guī)則,并通過(guò)人工認(rèn)知實(shí)驗(yàn)進(jìn)行了語(yǔ)義傳遞規(guī)則的認(rèn)知度測(cè)試,驗(yàn)證其有效性,從而實(shí)現(xiàn)了語(yǔ)義傳遞判斷的計(jì)算機(jī)模擬。進(jìn)而,對(duì)主題圖的語(yǔ)義相關(guān)度評(píng)價(jià)方法進(jìn)行系統(tǒng)研究,提出了主題間的語(yǔ)義相關(guān)度評(píng)價(jià)方法、主題與資源間的語(yǔ)義相關(guān)度評(píng)價(jià)方法。其中,通過(guò)對(duì)主題圖語(yǔ)義元素、語(yǔ)義結(jié)構(gòu)及語(yǔ)義傳遞的分析,同時(shí)參照語(yǔ)義相關(guān)度已有研究基礎(chǔ),提出了考慮主題節(jié)點(diǎn)密度、深度、語(yǔ)義關(guān)系類型、路徑及語(yǔ)義傳遞因素的主題間語(yǔ)義相關(guān)度評(píng)價(jià)方法,進(jìn)而以《知網(wǎng)》本體資源作為實(shí)驗(yàn)環(huán)境,以人工判斷為基準(zhǔn),通過(guò)與Jiang&Conrath方法進(jìn)行了對(duì)比分析進(jìn)一步改進(jìn)該評(píng)價(jià)方法。實(shí)驗(yàn)結(jié)果也表明語(yǔ)義傳遞要素引入可以提高語(yǔ)義相關(guān)度算法的精度,并最終實(shí)現(xiàn)了基于語(yǔ)義關(guān)系的主題間語(yǔ)義相關(guān)度算法。此外,對(duì)主題與資源間的語(yǔ)義相關(guān)度評(píng)價(jià)方法進(jìn)行研究。根據(jù)主題圖語(yǔ)義結(jié)構(gòu)及其資源特點(diǎn),分析了主題與資源間的語(yǔ)義相關(guān)度影響因素,提出了基于多相關(guān)主題的主題與資源相關(guān)度算法。該算法引入主題間語(yǔ)義相關(guān)度值及多相關(guān)主題IFIDF 詞頻權(quán)重法,并與傳統(tǒng)文本資源排序方法作對(duì)比分析,驗(yàn)證了主題與資源間語(yǔ)義相關(guān)度評(píng)價(jià)方法的優(yōu)勢(shì)。
最后,系統(tǒng)研究了基于關(guān)聯(lián)量化的主題圖知識(shí)組織方法。以臺(tái)風(fēng)應(yīng)急管理為背景,設(shè)計(jì)并實(shí)現(xiàn)了嵌入主題圖語(yǔ)義相關(guān)度評(píng)價(jià)方法的臺(tái)風(fēng)知識(shí)導(dǎo)航原型系統(tǒng)。通過(guò)構(gòu)建臺(tái)風(fēng)知識(shí)主題圖,在導(dǎo)航機(jī)制設(shè)計(jì)中嵌入主題圖關(guān)聯(lián)量化機(jī)制,克服了傳統(tǒng)導(dǎo)航查全率和差準(zhǔn)率低的問(wèn)題,實(shí)現(xiàn)了基于關(guān)聯(lián)量化的主題圖知識(shí)組織方法的應(yīng)用研究。
成果的重要觀點(diǎn)
充分利用語(yǔ)義相關(guān)性的已有研究成果,以主題圖語(yǔ)義元素及語(yǔ)義結(jié)構(gòu)等為基礎(chǔ),對(duì)主題圖的語(yǔ)義相關(guān)度評(píng)價(jià)方法進(jìn)行了研究,研究的重要觀點(diǎn)如下:一是首次提出了主題圖的主題間、主題和資源間的定量化的相關(guān)度評(píng)價(jià)方法。完善了基于主題圖的概念關(guān)聯(lián)類知識(shí)組織的方法和技術(shù),并有利于更清晰地理解主題圖和相應(yīng)資源實(shí)體的語(yǔ)義結(jié)構(gòu),進(jìn)而提高知識(shí)檢索和導(dǎo)航的精確程度;二是提出了主題圖的主要關(guān)系類型的語(yǔ)義相關(guān)度評(píng)價(jià)算法。能夠依據(jù)主題圖的結(jié)構(gòu)快速建立量化的語(yǔ)義相關(guān)度,可彌補(bǔ)關(guān)鍵詞共現(xiàn)類方法的準(zhǔn)確程度有賴于語(yǔ)境的質(zhì)量及文獻(xiàn)樣本的數(shù)量的不足;三是發(fā)現(xiàn)了主題圖中間接關(guān)聯(lián)主題間的語(yǔ)義傳遞規(guī)律,并構(gòu)建了語(yǔ)義傳遞體系,實(shí)現(xiàn)了語(yǔ)義傳遞的計(jì)算機(jī)模擬,并將其嵌入語(yǔ)義相關(guān)度評(píng)價(jià)方法;四是提出了基于多相關(guān)主題的主題與資源相關(guān)度算法。該算法引入主題間語(yǔ)義相關(guān)度值及多相關(guān)主題IFIDF 詞頻權(quán)重法,并在相關(guān)算例實(shí)驗(yàn)過(guò)程中,獲得了較好的計(jì)算結(jié)果。
成果的學(xué)術(shù)價(jià)值和社會(huì)價(jià)值
成果的學(xué)術(shù)價(jià)值在于:系統(tǒng)分析了主題圖的語(yǔ)義元素和語(yǔ)義結(jié)構(gòu),發(fā)現(xiàn)了語(yǔ)義傳遞規(guī)律,并建立了語(yǔ)義傳遞模型。這些研究結(jié)果一方面為主題圖語(yǔ)義相關(guān)度的評(píng)價(jià)方法研究提供了理論基礎(chǔ),另一方面豐富了主題圖的語(yǔ)義結(jié)構(gòu)的理論研究,并對(duì)語(yǔ)義傳遞領(lǐng)域進(jìn)行了拓展研究;同時(shí)本研究重點(diǎn)設(shè)計(jì)了主題圖的語(yǔ)義相關(guān)度評(píng)價(jià)方法,解決了主題圖關(guān)聯(lián)量化的問(wèn)題,這些成果一方面完善了主題圖的概念關(guān)聯(lián)類知識(shí)組織的方法和技術(shù)理論體系,另一方面有利于更深刻揭示主題圖與資源實(shí)體間的語(yǔ)義結(jié)構(gòu)。
成果的社會(huì)價(jià)值在于:研究提出的主題間、主題與資源間的語(yǔ)義相關(guān)度評(píng)價(jià)方法,可以用來(lái)指導(dǎo)信息和知識(shí)資源的組織系統(tǒng)的分析與設(shè)計(jì)。將提出的評(píng)價(jià)方法可應(yīng)用于信息或知識(shí)組織與檢索系統(tǒng),能夠提高信息與知識(shí)組織的質(zhì)量、檢索的查準(zhǔn)率和查準(zhǔn)率,大大提高了人們獲取信息的質(zhì)量與效率,具有較大的社會(huì)效益。
(責(zé)編:陳葉軍)