北京外國語大學(xué)北京日本學(xué)研究中心徐一平教授主持的國家社會科學(xué)基金項(xiàng)目《中日對譯語料庫的研制與應(yīng)用研究》,于1999年立項(xiàng),2003年7月結(jié)項(xiàng),其最終成果為《中日對譯語料庫》(CDROM)和《中日對譯語料庫的研制與應(yīng)用研究論文集》。課題組主要成員有:曹大峰、施建軍、戴寶玉、李強(qiáng)、潘壽君、楊詘人。現(xiàn)將該成果的基本內(nèi)容及其研究、應(yīng)用情況介紹如下:
隨著信息時代的到來,大規(guī)模真實(shí)文本的處理給自然語言處理研究提出了緊迫的要求。同時,語言學(xué)界也發(fā)現(xiàn),單純依靠語言學(xué)家的內(nèi)省和造句對語言所作的定性研究越來越難以全面、系統(tǒng)地描寫語言的真實(shí)全貌。因此,基于語料庫的經(jīng)驗(yàn)主義研究方法也就越來越受到語言學(xué)界和自然語言處理學(xué)界的青睞。在計(jì)算機(jī)不斷普及和自然語言處理研究不斷深入的過程中,基于單語語言的語料庫建設(shè)如雨后春筍,迅速發(fā)展。但是,作為基于中日兩種語言的大型雙語平行語料庫,目前在世界上還沒有得到開發(fā)和建立。因此可以說這一項(xiàng)目的完成,具有世界首創(chuàng)和填補(bǔ)空白的重要意義。
一、內(nèi)容豐富、加工到位、檢索功能齊全的中日對譯語料庫 本項(xiàng)目完成的《中日對譯語料庫》(CDROM),共收入中日雙語各種文本語料2013萬余字。在語料的收集上,考慮到語言研究和自然語言處理研究應(yīng)用的實(shí)際需要,在注重規(guī)模和原文、譯文質(zhì)量的同時,還充分考慮到各種體裁、年代語料的平衡,經(jīng)過對原文文本和譯文文本的調(diào)查和專家篩選,最終收入了中日文各類文章原文文本和譯文文本共80余篇。其中不但收錄了中日對譯文章中最常見的小說文本,還包括了如詩歌、散文、傳記、政論、法律法規(guī)、政府工作報告等各種體裁的語料文本,其跨越的時代也涉及到了近現(xiàn)代的各個時期,從而充分保證了語料的實(shí)用效果。在語料的錄入方面,經(jīng)過了多次反復(fù)的校對,使錯誤率控制在了萬分之五以下,充分保證了所收語料的可信度。
為了適應(yīng)自然語言研究中知識提取的需要,對中日對譯語料庫中所收語料進(jìn)行了原文譯文對齊、詞性標(biāo)注、句法標(biāo)注等三個方面的深加工處理。
首先,原文譯文對齊是雙語平行語料庫的基本條件。但是,由于中日雙語語料自動對齊的計(jì)算機(jī)工具尚未問世,利用計(jì)算機(jī)對語料進(jìn)行機(jī)器自動對齊加工,目前還不現(xiàn)實(shí)。因此,課題組成員利用人工方法對全部語料進(jìn)行了對齊加工,制定了詳細(xì)的對齊原則,最終實(shí)現(xiàn)了本語料庫的雙語語料在段落層面上的100%對齊。在確保語料對齊加工質(zhì)量的同時,為今后實(shí)現(xiàn)中日雙語語料計(jì)算機(jī)自動對齊和進(jìn)一步細(xì)化至句對齊,摸索出了一套成功的經(jīng)驗(yàn)。
其次,利用中日兩國自然語言處理研究中已經(jīng)開發(fā)出來的先進(jìn)的分詞、詞性標(biāo)注技術(shù)和句法分析系統(tǒng),對整個語料庫的中日語料文本分別進(jìn)行了整體的分詞、詞性標(biāo)注和嘗試性的句法標(biāo)注。目前,由于自然語言處理技術(shù)的日益進(jìn)步,中日兩國單語語言的基于統(tǒng)計(jì)模型的分詞技術(shù)和詞性標(biāo)注技術(shù)均已日臻成熟。在中文方面,如北京大學(xué)計(jì)算語言學(xué)所開發(fā)的漢語分詞標(biāo)注系統(tǒng)SLEX;在日文方面,如日本奈良尖端科學(xué)技術(shù)大學(xué)院大學(xué)建立的日語分詞標(biāo)注系統(tǒng)CHASEN等,其計(jì)算機(jī)自動加工分詞和詞性標(biāo)注的準(zhǔn)確率均可以達(dá)到95%以上。在利用這些先進(jìn)技術(shù)對本項(xiàng)目研制的中日對譯語料庫的語料進(jìn)行分詞和詞性標(biāo)注加工時,考慮到這些系統(tǒng)的統(tǒng)計(jì)模型都是基于純母語語料建立的這一特點(diǎn),針對“對譯語料庫”的語料特殊性,特別是譯文語料中所存在的一些原文留下的烙印,如人名、地名等專有名詞,是基于母語語料的現(xiàn)有系統(tǒng)處理不了的問題,課題組在開發(fā)研制過程中,分別在這些系統(tǒng)中建立了對譯語言的中日文人名、地名等的專有名詞詞典。同時,采取了機(jī)器自動分詞、標(biāo)注和人工校對相結(jié)合的方法,使中日雙語語料的分詞和詞性標(biāo)注的準(zhǔn)確率均達(dá)到了98%以上。另外,對10%的雙語語料進(jìn)行了嘗試性的句法標(biāo)注,其標(biāo)注準(zhǔn)確率,中文在60%—75%,日文在70%—80%之間。由于本項(xiàng)目的深加工處理,是在中日雙語語料中進(jìn)行的,其中所遇到的問題和解決的辦法是現(xiàn)有基于母語語料的系統(tǒng)中所不曾遇到過的,特別是加工完以后的語料再反饋給單語語料加工系統(tǒng)作為習(xí)題庫進(jìn)行學(xué)習(xí),對進(jìn)一步提高單語語料加工系統(tǒng)的準(zhǔn)確率起到了積極的作用。
一個語料庫建成以后,是否能得到充分的應(yīng)用,其關(guān)鍵就在于該語料庫是否具備能夠滿足使用者要求的檢索功能。針對這一問題,課題組成員集思廣益,并與日本日立公司中央研究所通力合作,開發(fā)出了一套適合于中日對譯雙語平行語料庫特點(diǎn),并能夠滿足中日語言研究者需要的檢索工具。
為了適應(yīng)中日雙語語料的特點(diǎn),在檢索工具的功能上,要能夠做到對中日文語料進(jìn)行雙向檢索,并能夠提取與檢索結(jié)果相對應(yīng)的譯文語料,同時在計(jì)算機(jī)的同一個平臺上實(shí)現(xiàn)中日文的同屏顯示。課題組充分考慮到windows平臺的多語言技術(shù)特點(diǎn),將本語料庫的主要開發(fā)平臺選定為windows操作系統(tǒng)。同時,為了使語料庫具有廣泛的通用性和較強(qiáng)的兼容性,中文語料采用了GB2312內(nèi)碼存儲,日文語料采用了SHIFTJIS內(nèi)碼存儲。這樣既可以適應(yīng)各種版本的windows平臺,并且經(jīng)過簡單轉(zhuǎn)換以后又可以在其他平臺(如UNIX、linux等)上使用,充分提高了語料庫的應(yīng)用價值和學(xué)術(shù)價值,并為最終實(shí)現(xiàn)中日文同屏顯示和多功能檢索奠定了基礎(chǔ)。
本語料庫提供的檢索工具主要是在windows2000和ie6.0上,利用數(shù)據(jù)庫技術(shù)開發(fā)研制的。在顯示檢索結(jié)果時針對不同文種使用不同字體,有效地解決了中日文同屏顯示的問題。而且,由于分別采用了中日兩國的國家工業(yè)標(biāo)準(zhǔn)代碼存儲語料,使得在不同語種檢索中出現(xiàn)的內(nèi)碼沖突問題也得到了很好的解決,同時為語料庫數(shù)據(jù)的二次開發(fā)利用也創(chuàng)造了有利的條件。針對語料庫主要用于語言研究的特點(diǎn),本語料庫提供的檢索工具,除具備一般語料庫所要求的簡單的字符串檢索功能以外,還具備了句型檢索、特定組合形態(tài)詞語檢索、使用頻率檢索、正則表達(dá)式檢索等適應(yīng)各種語言研究復(fù)雜要求的檢索功能。其檢索速度也完全達(dá)到了實(shí)用的水平。
二、邊研制、邊應(yīng)用,研究成果始終在應(yīng)用中驗(yàn)證并提高 正如課題組在立項(xiàng)報告中闡明的那樣,此次開發(fā)研制的《中日對譯語料庫(CDROM)》,其最終目的是為中日兩國語言研究服務(wù)。因此,對本語料庫的應(yīng)用性提出了很高的要求。為了使完成以后的中日對譯語料庫能夠滿足中日兩國語言研究者的應(yīng)用要求,在語料庫基本具備一定規(guī)模和相應(yīng)的檢索功能以后,課題組成員以及其他一些相關(guān)研究人員就開始利用本語料庫進(jìn)行各種語言研究的嘗試。并分別于2001年9月和2002年9月舉行了兩次大型的國際學(xué)術(shù)研討會。
在2001年9月舉行的題為《中日對譯語料庫的研制與應(yīng)用研究》的國際學(xué)術(shù)研討會上,來自中日兩國的研究學(xué)者交流和研討了中日對譯語料庫在漢語語言學(xué)研究、日語語言學(xué)研究、漢日對比語言學(xué)研究、自然語言處理研究等領(lǐng)域中的應(yīng)用問題,這些研究廣泛涉及到了句法、詞匯、翻譯、詞典、歷時語言學(xué)等諸多方面,為課題組進(jìn)一步完善中日對譯語料庫的研制提供了許多寶貴的數(shù)據(jù)。
在2002年9月舉行的題為《語料庫應(yīng)用研究的深化與拓展》的國際學(xué)術(shù)研討會上,來自中日韓三國的研究學(xué)者,圍繞“語料庫在語言學(xué)研究中的作用和局限性”、“語言學(xué)、信息處理研究所需要的語料庫”、“中日對譯語料庫的構(gòu)建和現(xiàn)狀”、“語料庫信息的自動抽取及其在語言研究中的應(yīng)用”、“口語語料庫的建設(shè)與應(yīng)用”等課題,進(jìn)行了廣泛、深入的探討。
為了反映這些應(yīng)用研究成果,課題組將開發(fā)過程中發(fā)表的階段性研究成果的論文以及利用中日對譯語料庫中期成果進(jìn)行的應(yīng)用性語言研究成果的論文匯集成冊,出版了《中日對譯語料庫的研制與應(yīng)用研究論文集》。其中,利用中日對譯語料庫對中文的語氣助詞“吧”和日語助動詞“だろう”的對比研究、對中文的語氣助詞“呢”的研究以及對中日文完成時的對比研究等,都得出了未使用對譯語料庫進(jìn)行研究所沒有得到的新的結(jié)論,進(jìn)一步推動了中日兩國語言研究的深入發(fā)展,充分顯示了中日對譯語料庫在兩國語言研究中所能發(fā)揮的重要作用。
當(dāng)然,語料庫的應(yīng)用也不僅僅限于單純的語言研究。如本語料庫還在清華大學(xué)的日文OCR開發(fā)項(xiàng)目,以及日本大學(xué)《日中古典文學(xué)今譯數(shù)據(jù)庫》項(xiàng)目等中日兩國的各類開發(fā)項(xiàng)目中得到了實(shí)際的應(yīng)用,并收到了良好的社會效益。
在自然語言處理領(lǐng)域,語料庫是構(gòu)建語言數(shù)學(xué)模型的基礎(chǔ)。許多成功的機(jī)器翻譯系統(tǒng)的核心模型也都是在語料庫的基礎(chǔ)上建立起來的。在當(dāng)今世界國際化進(jìn)程不斷加快的今天,同處亞洲的中日兩國的關(guān)系越來越密切,一個滿足于中日兩國人民交往的中日機(jī)器翻譯系統(tǒng),越來越成為一種迫切的需要。而中日對譯語料庫必將成為這種翻譯系統(tǒng)的基礎(chǔ)。同時,進(jìn)一步加大各國人民之間的交流,從雙邊關(guān)系進(jìn)一步發(fā)展為多邊關(guān)系也是世界發(fā)展的一個必然趨勢。在已經(jīng)開發(fā)出的中日對譯雙語平行語料庫的基礎(chǔ)上,進(jìn)一步研制開發(fā)中日韓對譯以及中日英對譯等三語或多語平行語料庫,將是課題組的下一個努力目標(biāo)。
(責(zé)編:陳葉軍)