精品久久亚洲中文无码_亚洲乱码日产精品a级毛片久久_国产精品成人久久久久三级午夜电影_亚洲色无码国产精品网站可下载

舊版網站入口

站內搜索

王克非:構建新型的歷時復合語料庫

王克非2016年09月19日10:54來源:中國社會科學報國家社科基金專刊

作者為國家社科基金重大項目“大規(guī)模英漢平行語料庫的建立與加工”首席專家、北京外國語大學教授

20世紀語言學研究,從索緒爾開始,獲得極大的進展。其中在方法和工具層面的進步,以語料庫的研制與應用最具標志性意義。隨著現(xiàn)代計算機技術的發(fā)展,單語語料庫研制從20世紀中葉起步,至今已助力語言學研究取得不少新成果。雙語語料庫雖然遲至20世紀90年代上路,但勢頭很強,帶動了雙語對比、翻譯及雙語詞典研編等一系列研究。

語料庫研制存在的問題

目前國際上雙語語料庫研制的主要問題:第一,語料庫大多文本來源單一、標注比較簡單,且多為歐洲語言,其他雙語語料庫甚少,主要用于語言識別、文檔級對齊、術語提取等自然語言處理研究,而非從語言學和翻譯學角度研究語言與翻譯問題。第二,少數(shù)雙語語料庫開展了相應的語言與翻譯研究,但雙語語料庫在質和量上都有待提升。第三,語言是發(fā)展變化的,在外語和翻譯的作用下,語言之間的各種接觸可能導致語言發(fā)生另樣的變化,原生語言和翻譯語言也存在種種的相似和相異。國際上現(xiàn)有的雙語語料庫或是缺乏歷時語料,或是語料庫庫容有限,上述研究課題也就懸而未探。第四,現(xiàn)有的無論單語還是雙語語料庫,很少做合成架構,即要么是單語或雙語的,要么是平行或類比的,少見組合,不利于語言和翻譯發(fā)展變化的考察和比較。

針對上述問題,尤其是第四個問題,有必要思考如何突破語料庫研制的局限性。構建新型的歷時復合語料庫,就是我們最新的嘗試。

歷時語料庫可提供各時期語言的相互比較,發(fā)現(xiàn)語言運用的變化及其過程,為語言變化考察、翻譯研究以及翻譯語言與目標語之間的互動,提供客觀的描寫和可分析的數(shù)據。在中外歷史上都有不少翻譯與目標語演化關系密切的案例。已往研究的語料來源不夠豐富,考察范圍有限,研究的深度和廣度大受制約,對原生漢語同翻譯漢語間的互動關系也缺乏了解,而這些都有望通過歷時語料數(shù)據的獲得和分析取得新的突破。

由此可見,研究語言及其變化不僅需要設計合理、規(guī)模較大的語料庫,還需要平衡的歷時語言素材。國際上,應對這一需求的歷時語料庫近些年開始構建。第一個歷時語料庫AVIATOR在1990年由伯明翰大學研制成功,另一個歷時語料庫ACRONYM于1994年建成。這兩個語料庫都使用連續(xù)出版的報刊為語料。代表性更強、跨度長達300多年的平行英語語料庫(ARCHER)、4億字詞的美國英語歷史語料庫(COHA)也陸續(xù)建成。但是,單語的歷時語料庫還不能解決雙語的和翻譯的問題。例如,現(xiàn)代漢語(包括翻譯的漢語)的發(fā)展變化,單從歷時語料庫還不能很好地考察,應加入更多的比較成分,如英語源語的因素、漢語譯文的變化和漢語原文的變化,三者之間形成全方位的比較研究,才有可能更充分地描寫和分析。因此,不僅要構建歷時的語料庫,還應設計復合的歷時語料庫。

歷時—復合:語料庫研制的一大突破

新型歷時復合語料庫的構建是語料庫研制的一項重要突破,國際上在這方面剛剛起步。德國學者尤莉安娜·豪斯項目組近年構建了一個小型歷時復合型語料庫,共550篇文本、80萬詞。但因語料庫容量小,語料不夠平衡,時間節(jié)點不清,目前僅開展了初步的德英/英德翻譯研究和語言接觸研究。大規(guī)模英漢平行語料庫——英漢雙語的歷時復合語料庫,可以有效地解決上述語料庫簡單、語料庫質量以及語料庫的歷時考察和復合對比研究等問題,為翻譯與目標語之間的互動建立比較完整的描寫和分析框架,使多層面、系統(tǒng)性的翻譯和語言變化歷時研究成為可能。

歷時語料不是隨意將各時期語料收集即可,需要平衡和分期。就漢語來說,語料的歷時平衡要通盤考慮現(xiàn)代漢語發(fā)展的實際情況,分期采樣,以便所建語料庫能反映出現(xiàn)代漢語的發(fā)展軌跡,并在英漢平行語料庫的基礎上探究英漢語言接觸及英語通過翻譯對漢語發(fā)展產生的影響。在語料、庫容、架構、歷時、復合等方面必須突出自己的建庫特點,突破國際上一般雙語語料庫的語料選取和語庫架構等方面的局限,還要避免英國國家語料庫(BNC)由于歷時連續(xù)采樣而造成的各階段差異模糊的缺陷。

我們的設計思路是,在庫容上達到1億字詞,含百萬字詞的口譯語料,并進行深度加工標注。除了語料平衡和庫容巨大這兩點外,歷時復合是創(chuàng)新亮點,復合即平行語料、類比語料、參照語料三結合,而非單一的平行語料。我們從漢語和翻譯發(fā)展的動態(tài)研究出發(fā)架構歷時和復合的語料庫:將20世紀100年間的漢語語料分成三個階段,約30年為一個階段,重點采集各階段某10年的語料,各階段收集:(1)英漢平行文學語料400萬字詞。(2)漢語原生文學語料200萬字詞。(3)再輔以19世紀未受現(xiàn)代翻譯影響的原生態(tài)漢語文學語料200萬字詞,以及不諳外語的單語作家語料100萬字詞,合計近2000多萬字詞。

歷時復合語料庫的構建除了注重時間段的劃分,還需在語料取樣上考慮雙語文本和翻譯研究的特定,即不同于一般的單、雙語語料庫,并需要考慮漢語早期白話文語料(包括翻譯文本)有限,本研究在語料取樣時做了適當變通,擴大了采樣數(shù)量。英漢歷時翻譯語料庫樣本結構參照Brown語料庫,樣本大小參照挪威語/英語平行語料庫(The English-Norwegian Parallel Corpus,ENPC),大多數(shù)樣本為15000英語詞和對應的25000漢字,漢語譯文取樣最多不超過30000字,一般從正文起始部分開始連續(xù)選取。

構建新型語料庫時,還需要相應的語料庫技術支撐,需要綜合型的便捷檢索平臺。例如充分調用篇頭(Header)標注中的文本屬性信息,讓這些元信息作為檢索條件出現(xiàn)在檢索平臺界面上,提升復合檢索水平;像類別、風格、體裁、作者、時間、出版社、時代等都可以用作檢索條件,保證語料檢索定向準確、針對性強。目前,以xml格式存儲的語料可以在專門設計的平臺上使用。

歷時復合語料庫的應用

語言發(fā)展變化的因素有些屬于語言自身運動,有些是語言間的相互接觸影響所致,特別是翻譯在兩種語言間所起的作用,如近代以來的翻譯就對現(xiàn)代漢語白話文的發(fā)展起了重要推動作用。同時,漢語規(guī)范始終在隱性地規(guī)約翻譯語言變化的范圍。語言的發(fā)展變化會在詞素、詞語、搭配、短語、句式、句長、語篇等層面上反映出來。借助于歷時復合語料庫這個平臺,就可以充分比較和分析這些語言層面的歷時變化過程,并建立翻譯語言與現(xiàn)代漢語白話文間相互影響的動態(tài)模式;還可以通過和漢語原創(chuàng)參照庫對比,分析發(fā)現(xiàn)漢語歷時變化與翻譯之間的關系。研究內容包括宏觀和微觀兩大方面。宏觀語言特征:重視使用語料庫驅動研究方法,側重考察句長、句段長、POS頻率、類符型符比,以及某些特定語言項目的歷時分布特征。微觀語言特征:語料庫驅動研究與基于語料庫的研究二者并用。前者通過WordSmith或AntConc的關鍵詞對比分析(keyness)詞匯和詞叢使用上的歷時差異,發(fā)現(xiàn)有價值的語言點,繼之歸類、分析;后者重視現(xiàn)有研究成果的有效運用,基于現(xiàn)有的研究提出理論假設,找到細化了的語言項目,或者通過細讀翻譯文本,觀察可分析的語言使用特征,在此基礎上基于歷時語料進行描述、分析和解釋。總之,歷時復合語料庫的應用研究前景極為廣闊。

(責編:李葉、程宏毅)
精品久久亚洲中文无码_亚洲乱码日产精品a级毛片久久_国产精品成人久久久久三级午夜电影_亚洲色无码国产精品网站可下载
  • <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    
    久久久久免费视频| 国产视频一区在线观看一区免费| 亚洲人体影院| 影音先锋日韩资源| 亚洲精品乱码久久久久久黑人 | 国产精品一区免费在线观看| 国产视频一区欧美| 亚洲第一区在线观看| 一区二区激情| 久久五月天婷婷| 欧美午夜激情视频| 加勒比av一区二区| 亚洲无玛一区| 欧美精品一区二区视频| 国产日韩欧美在线播放不卡| 一区二区三区黄色| 欧美1区2区| 国产一区深夜福利| 亚洲影院色在线观看免费| 欧美高清一区| 久久成年人视频| 久久性天堂网| 91久久亚洲| 久久久国产亚洲精品| 香蕉视频成人在线观看| 免费在线日韩av| 国内免费精品永久在线视频| 午夜亚洲激情| 国产目拍亚洲精品99久久精品 | 亚洲午夜羞羞片| 欧美激情小视频| 在线观看一区视频| 欧美一区日本一区韩国一区| 国产精品久久久久久久久久久久久久| 9色porny自拍视频一区二区| 欧美精品久久久久久| 亚洲精品资源美女情侣酒店| 免费欧美电影| 日韩视频二区| 欧美三日本三级少妇三2023 | 欧美黄污视频| 亚洲人精品午夜在线观看| 欧美福利电影在线观看| 亚洲激情一区二区三区| 欧美精品手机在线| av成人免费在线| 欧美激情中文字幕在线| 在线视频你懂得一区| 国产精品久久久久久久久搜平片| 亚洲天堂av在线免费观看| 国产精品国产亚洲精品看不卡15| 99精品视频免费| 国产精品免费久久久久久| 欧美一区二视频在线免费观看| 国语自产在线不卡| 欧美sm视频| 亚洲欧美日韩中文视频| 永久免费毛片在线播放不卡| 欧美啪啪一区| 久久er99精品| 9l国产精品久久久久麻豆| 国产日韩一区二区三区在线| 欧美xxx在线观看| 亚洲综合丁香| 亚洲国产精品视频| 国产农村妇女精品一二区| 久久夜色撩人精品| 亚洲一区欧美一区| 亚洲黄页视频免费观看| 国产欧美日韩一级| 欧美日韩精品一本二本三本| 久久精品国产免费| 亚洲免费不卡| 狠狠久久综合婷婷不卡| 国产精品国产三级国产| 欧美成人午夜激情| 欧美一区2区视频在线观看| 亚洲开发第一视频在线播放| 国产日韩一区二区三区在线播放| 欧美成人一区二免费视频软件| 亚洲一区二区三区777| 在线免费观看视频一区| 国产女主播在线一区二区| 欧美日韩第一区日日骚| 久久综合色8888| 欧美一区二区三区四区在线| 一区二区三区免费观看| 亚洲激情自拍| 亚洲电影激情视频网站| 国产午夜精品一区二区三区视频 | 亚洲一级片在线看| 亚洲激情在线观看视频免费| 国产综合色在线| 国产精品视频大全| 国产精品红桃| 国产精品久久久久久久午夜片| 欧美日韩国产在线| 欧美高清一区二区| 欧美激情中文不卡| 欧美大片在线看免费观看| 麻豆精品视频在线观看| 久久综合网络一区二区| 久久精品噜噜噜成人av农村| 久久av最新网址| 久久久久久久久久久久久9999| 久久成人精品| 久久综合中文色婷婷| 久久精品国产第一区二区三区最新章节 | 久久久久国产精品人| 欧美一区二区三区免费视频| 亚洲在线观看视频网站| 亚洲天堂av高清| 亚洲欧美激情精品一区二区| 亚洲欧美色婷婷| 欧美一区二区三区四区高清| 欧美一区二区三区的| 日韩午夜免费视频| 国产欧美日韩一区二区三区在线观看| 久久久综合网| 久久免费视频一区| 美女免费视频一区| 欧美第一黄网免费网站| 欧美日韩高清在线播放| 国产精品国产自产拍高清av王其 | 91久久国产综合久久蜜月精品| 狠狠干成人综合网| 狠狠综合久久av一区二区老牛| 在线欧美小视频| 99re8这里有精品热视频免费| 一区二区三区精品国产| 欧美一区二区三区免费视| 久久男人资源视频| 欧美日韩国产在线一区| 国产日本精品| 最新69国产成人精品视频免费| 亚洲最新在线| 久久久久久欧美| 欧美日韩在线一区二区三区| 国产视频一区在线观看| 亚洲三级视频| 欧美中文字幕视频在线观看| 欧美1区免费| 国产精品三级久久久久久电影| 国语自产精品视频在线看抢先版结局| 亚洲国产精品久久久久婷婷884| 亚洲视频视频在线| 看片网站欧美日韩| 国产精品欧美日韩一区| 亚洲国产影院| 欧美一级淫片aaaaaaa视频| 欧美精品一区二区三区在线播放| 国产欧美日韩视频一区二区三区 | 欧美日韩精品免费在线观看视频| 国产精品一区二区久激情瑜伽| 在线观看久久av| 欧美一区观看| 国产精品伦理| 欧美一区二区成人6969| 亚洲精品国偷自产在线99热| 亚洲特级毛片| 久久亚裔精品欧美| 国产精品久久激情| 亚洲国产小视频在线观看| 亚洲免费一区二区| 免费亚洲婷婷| 欧美不卡高清| 国产精品一区在线观看| 亚洲精品综合| 久久色在线观看| 国产欧美一区二区色老头| 99精品国产一区二区青青牛奶| 久久久精品网| 国产午夜精品麻豆| 亚洲免费一在线| 欧美性视频网站| 99视频精品全部免费在线| 女人香蕉久久**毛片精品| 欧美激情精品久久久久久| 国产亚洲欧美日韩美女| 国产精品99久久久久久有的能看| 美女精品自拍一二三四| 在线播放日韩专区| 麻豆精品在线观看| 在线欧美三区| 欧美成人中文字幕在线| 亚洲精品在线看| 欧美性理论片在线观看片免费| 中文在线资源观看网站视频免费不卡 | 国产日韩欧美日韩| 欧美一区二区三区视频免费播放| 国产伦精品一区二区三区在线观看| 亚洲专区免费| 国产精品一区二区你懂的| 午夜精品久久久久久久白皮肤| 国产精品亚洲产品| 久久久久国产一区二区三区四区 | 国产精品久久久久久久久久久久久久| 亚洲麻豆视频| 欧美大片免费看| 亚洲区一区二|