• <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    

    舊版網(wǎng)站入口

    站內(nèi)搜索

    “面向網(wǎng)絡(luò)文本的多視角語義分析方法、語言知識庫及平臺建設(shè)研究”中期檢查情況

    2015年07月31日10:52來源:全國哲學(xué)社會科學(xué)工作辦公室

    一、研究進(jìn)展情況(可另加附頁)

    主要內(nèi)容:①研究計劃總體執(zhí)行情況及各子課題進(jìn)展情況;②調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運用、文獻(xiàn)資料收集整理、學(xué)術(shù)會議、學(xué)術(shù)交流、國際合作等);③成果宣傳推介情況(成果發(fā)布會、《工作簡報》報送情況、國家社科基金專刊投稿及采用情況等);④研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議;⑤其他需要說明的問題。

    ① 研究計劃總體執(zhí)行情況及各子課題進(jìn)展情況

    本項目于2012年12月28日獲批立項。項目執(zhí)行時間是2013年1月 — 2017年12月。本項目的計劃與時間安排如下:

    到2014年6月底,項目實施一年半,執(zhí)行時間還不到項目總計劃時間的三分之一。我們參照項目的上述計劃進(jìn)度,順利推進(jìn)項目,開展相關(guān)研究。

    總體而言,在過去的一年半時間里,我們完成了相應(yīng)時間內(nèi)預(yù)期的任務(wù):知識庫的構(gòu)建取得階段性進(jìn)展,制定了知識表示框架,填寫了部分詞匯的知識;在多級語料庫的加工與挖掘方面,完成了規(guī)范的制定和試標(biāo)工作,為后續(xù)規(guī)模化的加工打下了良好的基礎(chǔ);設(shè)計了眾包平臺的總體框架,以語篇的指代關(guān)系標(biāo)注為例,在眾包平臺上發(fā)布標(biāo)注任務(wù);目前已通過使用平臺開始指代關(guān)系的標(biāo)注,并得到一定量的寶貴數(shù)據(jù);在多視角語義分析方面也取得了一系列的成果,縮略語識別、情感分析、實體關(guān)系分析等均取得研究進(jìn)展。

    迄今為止,我們已經(jīng)發(fā)表學(xué)術(shù)論文23篇,接受待發(fā)表的論文7篇,共計30篇,已經(jīng)達(dá)到了計劃的全部論文數(shù),論文均標(biāo)有本項目資助號。其中有多篇論文發(fā)表于計算語言學(xué)領(lǐng)域的頂級國際會議。此外,還申請專利1項。可以說,本項目圓滿完成了相應(yīng)時期的任務(wù)。

    下面分別介紹各子課題的進(jìn)展情況。

    子課題1:基于生成詞庫理論和論元結(jié)構(gòu)理論的語義知識體系研究

    (1) 已經(jīng)制定漢語名詞的物性結(jié)構(gòu)描寫和標(biāo)注體系,并通過試描述和組內(nèi)多次討論交流,對規(guī)范作了反復(fù)調(diào)整和完善。

    (2) 以規(guī)范為依據(jù)描述了3000個左右的名詞的物性結(jié)構(gòu),共計200多萬字。對于高頻名詞的物性結(jié)構(gòu)標(biāo)注已經(jīng)基本完成,初步構(gòu)造了一個面對網(wǎng)絡(luò)文本分析的語言知識庫。

    (3) 建立了一套漢語動詞、形容詞的論元結(jié)構(gòu)描寫體系和語義角色的標(biāo)注體系和規(guī)范,并且在北京大學(xué)現(xiàn)代漢語句法樹庫的語料上標(biāo)注了10多萬字,正在配備相關(guān)的索引軟件。

    (4) 研制了一個在線漢語謂詞語義知識庫,包括為15,000多個常用動詞和形容詞的每一個義項(約40,000個條目)編制語義角色框架文檔,內(nèi)容包括:詞形、拼音、詞性、釋義、語義角色及其定義、配位方式及其實例、真實文本中的例子等。

    子課題2:網(wǎng)絡(luò)文本的多級加工與語言知識挖掘研究

    (1) 制定了漢語語料標(biāo)注的系列規(guī)范,包括“多視圖的漢語樹庫標(biāo)注規(guī)范”,“漢語句際關(guān)系的標(biāo)注體系”,“漢語口語語料庫對話行為標(biāo)注體系”等。

    (2) 開發(fā)了多級多視圖語料標(biāo)注的系列計算機(jī)輔助軟件,并通過了試標(biāo)注的檢驗,達(dá)到了較好的效果。

    (3) 為了分析網(wǎng)絡(luò)語言的特點,標(biāo)注了部分網(wǎng)絡(luò)微博語料和口語對話語料中的依存關(guān)系和對話行為。

    (4) 研究了網(wǎng)絡(luò)文本中的信息挖掘方法和對話語料中的對話行為分析方法。為多視角的語義分析提供了依據(jù)。

    子課題3:基于群體智慧的知識資源加工技術(shù)及眾包平臺研究

    (1) 設(shè)計了眾包平臺的基本構(gòu)建,在參與中包任務(wù)的用戶使用層面,設(shè)計實現(xiàn)了展示模塊,語料(知識)加工模塊,候選答案推薦模塊。

    (2) 為檢查用戶對語料(知識)加工的質(zhì)量,設(shè)計了參與用戶的行為跟蹤記錄模塊,通過日志形式,動態(tài)記錄用戶的行為軌跡。

    (3) 利用眾包平臺,發(fā)布了單數(shù)指代詞的指代關(guān)系標(biāo)注任務(wù)。并已有3人參與指代關(guān)系標(biāo)注的任務(wù),目前通過雙盲重復(fù)標(biāo)注的方式已完成了2025篇文章的標(biāo)注,同時也獲得了相關(guān)行為的日志信息,我們已對標(biāo)注情況進(jìn)行初步分析,以進(jìn)一步完善平臺。

    (4) 利用眾包平臺,正在設(shè)計實現(xiàn)句間關(guān)系標(biāo)注的任務(wù),設(shè)計工作已基本完成,很快便可發(fā)布加工任務(wù)。

    子課題4:知識與統(tǒng)計相結(jié)合的多視角文本語義分析技術(shù)研究

    (1) 研究了微博語料的分詞方法。不同于規(guī)范的文本,微博的表達(dá)十分隨意,新詞頻現(xiàn),用詞不囿于通常的規(guī)律。但微博的標(biāo)點句短,非漢字的符號(包括標(biāo)點)多,利用這一特點,實現(xiàn)了微博分詞模塊。

    (2) 研究了跨語言的情感分析方法,特別是,研究了利用英語的情感詞表自動獲取漢語情感詞的方法。這對于情感語義的分析將是非常重要的基礎(chǔ)資源。

    (3) 研究了漢語縮略語的分析和預(yù)測方法。在網(wǎng)絡(luò)上,存在大量的縮略語現(xiàn)象。如何預(yù)測縮略語,建立縮略語與完整形式之間的關(guān)系,是分析理解縮略語的基礎(chǔ)。

    (4) 研究了中文的指代方法,包括文本內(nèi)的指代關(guān)系和跨文本的同指關(guān)系。在文本內(nèi)的指代關(guān)系分析方面,我們重點研究了漢語零型指代的消解問題,在跨文本的指代消解中,重點研究了實體鏈接問題。

    ② 調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運用、文獻(xiàn)資料收集整理、學(xué)術(shù)會議、學(xué)術(shù)交流、國際合作等)

    過去的一年半時間正好是項目的開始期,按照研究的計劃安排,調(diào)查研究是本時期最重要的任務(wù)。為此,我們開展了如下工作:

    (1) 進(jìn)行了大量的數(shù)據(jù)收集和分析:通過自動采集方式爬取了新浪微博、口語對話、博客、網(wǎng)上新聞等數(shù)據(jù),同時,也收集了一定量的語音-文字轉(zhuǎn)換的結(jié)果數(shù)據(jù)。本項目收集上述數(shù)據(jù)的主要原因是,微博是典型的網(wǎng)上語言,而且是最具代表性的非規(guī)范語言特征。而口語對話則在一定程度上代表了聊天語言現(xiàn)象(包括即時通信),博客是一種相對規(guī)范的語言表示。收集語音-文字轉(zhuǎn)換數(shù)據(jù)主要原因是隨著移動互聯(lián)網(wǎng)的發(fā)展,語音將成為重要的信息表示形式。語音的處理通常需要先轉(zhuǎn)換為文本信息,以進(jìn)一步分析語義信息,這就需要分析相關(guān)材料。

    (2) 收集查閱了大量的文獻(xiàn)資料。為了便于本項目更有效的開展,我們對國內(nèi)外的研究進(jìn)行了調(diào)研,重點查閱并收集了近幾年來相關(guān)研究的文獻(xiàn)資料,包括社交媒體的語言處理、不規(guī)范語言的處理方法、相關(guān)的語言知識庫及語料庫加工方法和加工平臺的研究狀況。查閱文獻(xiàn)資料100多篇(部)。為本項目的優(yōu)化實施起到了重要作用。

    (3) 學(xué)術(shù)會議與學(xué)術(shù)交流方面,項目各子課題多次進(jìn)行了小組討論。參加了一系列的學(xué)術(shù)會議,包括2013年在保加利亞舉行的國際頂級計算語言學(xué)會議ACL,2013年在美國舉行的國際權(quán)威計算語言學(xué)會議EMNLP,2013年在日本舉行的IJNLP會議,以及在新加坡、臺灣等地舉辦的重要語言學(xué)國際學(xué)術(shù)會議和計算語言學(xué)國際學(xué)術(shù)會議。在國內(nèi),參加了多個重要會議,包括2013年全國計算語言學(xué),詞匯語義學(xué)會以,中文計算會議等,項目首席專家還應(yīng)邀在2013年的第14屆漢語詞匯語義學(xué)會議作特邀報告,并應(yīng)邀參與哈佛大學(xué)中文文本挖掘的研討會。此外,還與臺灣元智大學(xué)、香港理工大學(xué)合作開始了相關(guān)的合作研究。

    ③ 成果宣傳推介情況

    在項目實施中,我們在多個不同場合介紹我們的項目情況。2013年在鄭州召開的漢語詞匯語義學(xué)會以(CLSW2013)上,項目首席專家王厚峰作為會議的特邀報告人(Keynote Speaker),重點介紹了本項目的情況和研究成果,而后在洛陽外國語學(xué)院、黑龍江大學(xué)、以及應(yīng)邀訪問美國哈佛大學(xué)時,王厚峰均分別介紹了本項目的研究成果;在2013年6月到臺灣參加會議期間,也到交通大學(xué)介紹了本項目的研究情況。此外,我們也在計算語言學(xué)有影響的國際會議、國內(nèi)會議報告相關(guān)的成果,起到了很好的推介作用。

    當(dāng)然,在這一年半的時間里,我們主要注意到了向本領(lǐng)域?qū)W術(shù)期刊和學(xué)術(shù)會議投稿,今后,我們將注意向國家社科基金專刊的投稿。

    ④ 研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議

    本項研究我們基本上按照計劃進(jìn)行,并針對研究中的問題按課題進(jìn)行研討,總的來看,我們按正常方式推進(jìn)。目前暫沒有特別的建議。

    二、研究成果情況

    ①代表性成果簡介

    我們圍繞項目任務(wù)開展了多方面的研究,取得了一系列的成果,下面僅介紹幾項代表性的成果。

    (1) 建立了名詞的物性結(jié)構(gòu)體系

    根據(jù)Pustejovsky (1995、2006)的物性結(jié)構(gòu)描寫框架,結(jié)合漢語的實際情況,構(gòu)建了一套漢語名詞的物性描寫體系。說明如下:

    (1)形式(formal,簡寫為FAL):名詞的分類屬性、語義類型和本體層級特征。比如,“石頭”是“有形物質(zhì)、自然物”;

    (2)構(gòu)成(constitutive,簡寫為CON):名詞所指的事物的結(jié)構(gòu)屬性,包括:構(gòu)成狀態(tài)、組成成分、在更大的范圍內(nèi)構(gòu)成或組成哪些事物、跟其他事物的關(guān)系,也包括物體的大小(magnitude)、形狀(shape)、維度(dimensionality)、顏色(color)和方位(orientation),等等。比如,“石頭”的構(gòu)成是“礦物;可以根據(jù)下列顏色、形狀、作用等屬性進(jìn)行分類:彩色、黑色、紅色、褐色、白色、圓形、柱形、棱角分明、保健,等等”;

    (3)單位(unite,簡寫為UNI):名詞所指事物的計量單位,也即跟名詞相應(yīng)的量詞;

    (4)評價(evaluation,簡寫為EVA):對名詞所指事物的主觀評價、情感色彩。比如,對“水”的評價有“清、清澈、清潔、臟、渾、渾濁”;

    (5)施成(agentive,簡寫為AGE):名詞所指的事物是怎樣形成的,如創(chuàng)造、天然存在、因果關(guān)系等。比如,“椅子”的施成是“制作、做、加工、編制”等等;

    (6)材料(material,簡寫為MAT):創(chuàng)造名詞所指的事物所用的材料。比如,“椅子”的材料是“木頭、竹子、藤子、木、竹、藤、鋼、鐵、塑料、硬板”等等;

    (7)功用(telic,簡寫為TEL):名詞所指的事物的用途和功能。比如,“椅子”的功用是“坐”等等;

    (8)行為(action,簡寫為ACT):名詞所指的事物的慣常性的動作、行為、活動。比如,“水”的行為是“流、流動、奔騰、翻滾、滴、淌、流淌”等等;

    (9)處置(handle,簡寫為HAN):人或其他事物對名詞所指的事物的慣常性的動作、行為、影響。比如,對“水”的處置是“打、舀、取、蓄、灑、放、排、倒、噴、潑、玩兒”等等。

    目前,已經(jīng)完成了3000個名詞。下面僅以“商店”為例作說明:

    商店 shāngdiàn〈名詞,中性〉在室內(nèi)出售商品的場所。

    〔1〕物性角色:

    形式FOR:機(jī)構(gòu)、場所、人造物;

    構(gòu)成CON:可以根據(jù)所出售的東西類型進(jìn)行分類,如:百貨、五金、音樂器材、工藝品、土特產(chǎn)、綜合,等等;也可以根據(jù)其類型、等級、地區(qū)等進(jìn)行分類,如:大型、新型、高檔、高級、連鎖、水上、地下、社區(qū),等等。

    單位UNI:個體:個、家、座,等等;集合:批、部分、種、類、排,等等;不定:各、每個、些,等等;

    評價EVA:大、小、豪華、信譽良好、鱗次櫛比,等等;

    施成AGE:開辦、興建、蓋、建造,等等;

    行為ACT:賣飲料、掛出條幅、開門、開始工作、舉辦、開設(shè)、開張、營業(yè)、出臺促銷手段

    功用TEL:出售商品,等等;

    處置HAN:裝飾、拆除、走進(jìn)、出入、洗劫、沖擊、哄搶,等等

    定位ORI:里、從、中、去、在、附近、到、向、通往、位于,等等。

    〔2〕句法格式:

    S1:CON + __

    如:音樂器材~| 電腦~ | 工藝美術(shù)~ | 大型~ | 新型~ | 工藝品~ | 百貨~ | 高級~ | 普通~ | 五金~| 土特產(chǎn)~| 食品~ | 春節(jié)用品~ | 社區(qū)~ | 服裝~ | 網(wǎng)絡(luò)~ | 化妝品~ | 零售~ | 移動電話~ | 兒童~ | NBA~ | 化學(xué)品~ | 建材~ | 煙酒~ | 專業(yè)~ | 珠寶首飾~ | 連鎖~ | 批發(fā)~ | 個體~ | 計算機(jī)~

    S2:Num + UNI + __

    如:兩個~ | 許多~ |各種~ | 一家~ | 一座~| 一些~ | 一(大)批~ | 一排~

    S3:EVA +(的+)__

    如:大~ | 小~ | 鱗次櫛比的~ | 信譽良好~ | 豪華~

    S4:AGE + __

    如:開辦~ | 蓋~ | 建造~

    S5: __ + ACT

    如:~賣飲料 | ~掛出條幅 | ~開門 | ~開始工作 | ~開設(shè) | ~開張 | ~營業(yè) | ~開放 | ~出臺促銷手段 | ~舉辦 | ~打烊 | ~配備 | ~關(guān)閉 | ~停業(yè)

    S6:__ + TEL

    如:~出售商品

    S7:HAN + __

    如:裝飾~ | 拆除~ | 進(jìn)入~ | 走進(jìn)~ | 出入~ | 洗劫~ | 沖擊~ | 檢查~ | 焚燒~ | 打砸~ | 哄搶~ | 看守~

    S8:ORI + __ / __ + ORI

    如:~里 | ~中 | 在~ |~內(nèi) | 到~ | 從~| ~附近 | 往~ | 去~

    名詞物性結(jié)構(gòu)有利于信息處理中文本蘊涵推理計算,尤其對于一些名詞結(jié)構(gòu)中隱含謂詞的還原有著重要的意義。

    (2) 制定了多視圖的漢語樹庫標(biāo)注規(guī)范并實現(xiàn)了樹庫輔助標(biāo)注工具

    提出一套多視圖的漢語樹庫體系,這套體系以依存視圖為核心,在句法層面上僅僅標(biāo)注中心語和語法角色兩類信息,然后通過設(shè)計一套層次生成程序和結(jié)構(gòu)功能映射規(guī)則和算法推導(dǎo)出層次信息和短語結(jié)構(gòu)功能信息,從而自動轉(zhuǎn)換出相應(yīng)的短語結(jié)構(gòu)樹;在語義層面上,通過對部分語法標(biāo)簽的細(xì)化進(jìn)一步標(biāo)注語義角色標(biāo)簽,并通過虛詞的格傳遞來保證語法依存和語義依存在中心語上的一致性。最終生成的多視圖樹庫含有語法依存視圖、短語結(jié)構(gòu)視圖和語義依存視圖等三個視圖。如下是依存視圖的示例:

    目前已有的句法結(jié)構(gòu)的語料基本都是單一地針對一種句法體系,如短語結(jié)構(gòu)或依存結(jié)構(gòu),不能滿足實際應(yīng)用的需求。我們構(gòu)建多視圖的樹庫,有助于實際使用者根據(jù)需求選擇不同視圖,或同時使用不同視圖的信息。

    為了進(jìn)行了多視圖樹庫構(gòu)建的工作,我們開發(fā)了一套支持多視圖樹庫標(biāo)注的工具,該工具除基本標(biāo)注功能外,還包含人機(jī)互動校對和與語法詞典交叉驗證的功能。用戶可以方便地添加、刪除依存弧,修改依存標(biāo)簽、檢索特定標(biāo)簽等。下圖是操作界面。

    (3) 漢語句際關(guān)系的標(biāo)注體系

    提出了漢語復(fù)句層次上句際層級結(jié)構(gòu)和邏輯關(guān)系的語料標(biāo)注體系。結(jié)構(gòu)關(guān)聯(lián)方面主要借鑒了英語RST理論,語義關(guān)聯(lián)方面主要借鑒了英語的PDTB篇章樹庫。小句之間通過各種語義關(guān)系的連接而形成一棵完整的層級結(jié)構(gòu)樹。提出了漢語句際的邏輯關(guān)系類型,這是漢語篇章分析的基礎(chǔ)。體系如下表所示:

    第1層:CLASS

    第2層:TYPE

    第3層:SUBTYPE

    聯(lián)合關(guān)系

    (multi-nuclear)

    并列(conjunction)

    [CONJ]

    ○1等立(coordinate) [COOR]

    ○2時序(temporal) [TEMP]

    ○3選擇(alternative) [ALT]

    ○4遞進(jìn)(progression) [PROG]

    ○5順承(succession) [SUCC]

    主從關(guān)系

    (single-nuclear)

    對比(comparison)

    [COMP]

    ○6轉(zhuǎn)折(contrast) [CONT]

    ○7讓步(concession) [CONC]

    推論(inference)

    [INF]

    ○8因果(cause) [CAUS]

    ○9結(jié)果(result) [RESU]

    ○10目的(purpose) [PURP]

    條件(condition)

    [CON]

    ○11假設(shè)(hypothetical) [HYP]

    ○12條件(condition) [COND]

    總分(specification)

    [SPE]

    ○13解證(explanation) [EXPL]

    ○14分述(list) [LIST]

    分總(summary)

    [SUM]

    ○15總括(generalization) [GENE]

    (4) 口語對話語料中對話行為的標(biāo)注規(guī)范

    對話行為(dialog act)指在對話中(dialog)言談?wù)叩男袨橐鈭D。自動分析對話行為可以幫助識別言談?wù)叩囊鈭D、幫助構(gòu)建對話模型、提升口語機(jī)器翻譯系統(tǒng)的性能等。本項目第一次構(gòu)建了漢語領(lǐng)域完整的對話行為標(biāo)簽集。首先,對一個語句進(jìn)行言語切分(utterance segmentation),明確標(biāo)示出言語的界限;然后,每個言語片段標(biāo)示出一個明確的、惟一的對話行為標(biāo)簽。

    Tag (Abbr.)

    Description

    Example

    Statement

    (S)

    State a belief or an event

    陳述一個信念或一個事件

    我接下來圖片看一下啊先

    Request

    (R)

    Express a speaker’s desire that the hearer do something

    期望聽者做出一個動作或某種響應(yīng)

    就是這個圖片 請接收一下

    Open-question

    (Q)

    A question that can not be answered with only “yes” or “no”

    不能單純用“是”和“否”來回答的問句

    產(chǎn)生費用怎么算?

    Yes-No-question

    (QYN)

    A closed question which can be answered by either a “yes” or “no”

    是非問句

    這些圖片,你是從gettyimages上面找的么?

    Opinion

    (O)

    (B)

    Express opinions or unsatisfactory towards something or some services

    對事情或服務(wù)發(fā)表評價或發(fā)出抱怨

    那么貴?

    Yes-answer

    (AY)

    A positive answer to a Yes-no-question

    是非問句的肯定回答

    對的

    No-answer

    (AN)

    A negative answer to a Yes-no-question

    是非問句的否定回答

    不是

    Answer

    (AQ)

    An answer to an open-question

    開放問句的回答

    咱們的圖片按照授權(quán)方式不同,分了2種

    Response-ack

    (RA)

    Confirm that the previous request was received/accepted

    對上一句需求性言語作出響應(yīng)

    好的

    Statement-ack

    (SA)

    Confirm that the previous statement was received/accepted

    對上一句陳述作出響應(yīng)

    client:抬頭 北京鼎尚利合餐飲管理有限公司

    server:好的!收到!

    Explain-why

    (EW)

    Explain further the reason of the previous utterance

    對上一句言語進(jìn)一步解釋原因

    client:手機(jī)和直郵能改嗎?

    server:這個修改不了

    server:用途由內(nèi)部系統(tǒng)生成

    Conversational opening

    (CO)

    Greetings and other ways of starting a conversation

    開始一個對話

    你好

    Conversational closing

    (CC)

    Various ways of ending a conversation

    結(jié)束一個對話

    Bye Bye

    Conversational continuer

    (CT)

    Various ways of continuing a conversation

    延續(xù)一個對話

    呵呵

    Thanks

    (TH)

    Express appreciation and thanks

    表示感謝等禮貌用語

    麻煩了,謝謝

    Downplayer

    (D)

    A backwards-linking label often used after THANKS to down play the contribution

    對感謝用語作出禮貌性的回應(yīng)

    不客氣

    Confirmation

    (CF)

    Verify or confirm a previous information

    對上一句言語信息進(jìn)一步確認(rèn)

    Server:大概從1000-3000不等。

    Server:圖片價格大概1000-3000/張不等。

    Entity

    (EN)

    Using non-verbal entity to convey information

    用不成句的實體詞語傳輸信息

    菲爾?米克爾森

    Cut

    (Cut)

    The first part that constitutes a complete utterance

    被切斷的一個言語的前半部分

    server:咱們那張圖呀<CUT>

    server:定下來了不哈?<QYN>

    Chat

    (CHAT)

    Chat unrelated to business

    完全與業(yè)務(wù)無關(guān)的閑聊

    Uncertainty

    (U)

    Uncertain information

    不確定的信息

    (5) 設(shè)計實現(xiàn)了眾包平臺,并發(fā)布了單數(shù)人稱代詞的標(biāo)注任務(wù)

    為了便于知識資源的加工,我們開發(fā)了一個眾包平臺,界面如下所示:

    基本框架如下:

    基于眾包平臺發(fā)布了單數(shù)人稱代詞的指代關(guān)系標(biāo)注。見如下界面:

    通過眾包模式(Crowdsourcing)建設(shè)大規(guī)模的語料庫,可以讓大量的非專業(yè)人員參與語料庫標(biāo)注的工作,這有助于降低加工成本,提高加工效率。

    (5) 設(shè)計實現(xiàn)了面向網(wǎng)絡(luò)短文本的漢語切詞模塊

    網(wǎng)絡(luò)語言超出了通常規(guī)范語言的很多限制,使得計算機(jī)處理變得十分困難。而計算機(jī)分析中文的第一步通常是切詞。一般切詞工具在新聞文本上可以達(dá)到95%的F 值,在微博上則只有大約82% 。為此,我們特別研究了面向網(wǎng)絡(luò)短文本的漢語切詞方法,特別是針對微博的切詞方法。

    現(xiàn)有的切詞方法大都使用有指導(dǎo)的序列標(biāo)注模型,如CRF。基本思想是對每個漢字賦予一個標(biāo)記,如,某個字是一個詞的開始字(標(biāo)B)或者不是一個詞的開始字(標(biāo)N)。已有的研究表明,有指導(dǎo)方法得到的切詞效果有著明顯的優(yōu)勢。但是,有指導(dǎo)的方法需要大量的有標(biāo)訓(xùn)練數(shù)據(jù),而構(gòu)建有標(biāo)訓(xùn)練數(shù)據(jù)既費時又費力。如何充分利用現(xiàn)有數(shù)據(jù)的特點便成為一個重要的問題。通過觀察,我們發(fā)現(xiàn),與一般的新聞文本相比,微博數(shù)據(jù)有明顯的自然標(biāo)記信息。下表是我們對一般新聞和微博中各類符號分布統(tǒng)計的比較值:

    文本類型

    漢字

    英文字

    數(shù)字

    標(biāo)點符號

    一般新聞

    85.7%

    0.6%

    0.7%

    13%

    微博

    66.3%

    11.8%

    2.6%

    19.3%

    顯然,微博中的非漢字比例大幅上升,比一般新聞的非漢字比例增加一倍以上。對于漢語分詞而言,英文字母,數(shù)字以及標(biāo)點符號都是自然的斷詞符號:自然標(biāo)記符后面的漢字是詞的開始字(B),同樣,自然標(biāo)記前面的一個漢字則是詞的末尾字。可以充分利用這些自然標(biāo)注改進(jìn)網(wǎng)絡(luò)短文本的切詞處理。我們基于上述觀察,自動獲得了大量的特殊標(biāo)注信息,并利用這些信息設(shè)計了切詞模塊,實驗表明,我們所提方法與已有的方法相比,F(xiàn)值有顯著提升,達(dá)到了 87.5%。

    注:2010年立項的重大項目主要填寫2012年6月以來的研究成果情況。

    序號

    成果名稱

    作者

    成果形式

    刊物名或出版社、刊發(fā)或出版時間

    字?jǐn)?shù)

    轉(zhuǎn)載、引用、獲獎等情況

    1

    采用無標(biāo)注語料的動詞和形容詞主觀性評級

    徐戈,蒙新泛,王厚峰

    論文

    軟件學(xué)報,2013(5)

    1.5萬字

     

    2

    The Acquisition of Chinese Ergative Verbs and the

    Verification of Relevant Rules in Semantic Role Labeling

    汪夢翔等

    英文

    論文

    CLSW 2013,

    LNAI 8229,

    Springer-Verlag Berlin Heidelberg

     

     

    3

    Improving ChineseWord Segmentation on Micro-blog Using Rich

    Punctuations

    張龍凱等

    英文論文

    Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,

    Sofia, Bulgaria, August 2013

     

     

    4

    Learning Entity Representation for Entity Disambiguation

    何正焱等

    英文論文

    Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,

    Sofia, Bulgaria, August 2013

     

     

    5

    “對不起”話語標(biāo)簽的形成及功能

    汪夢翔等

    論文

    湖北社會科學(xué),2013(8)

    7500

     

    6

    Judgment, Extraction and Selective Restriction of Chinese Eventive Verb

    汪夢翔等

    英文

    論文

    Proceedings of 2013 International Conference on Asia Language Processing

    (IALP 2013)

    IEEE Computer Society

     

     

    7

    Exploiting Hierarchical Discourse Structure for Review Sentiment Analysis

    Fei Wang,

    Yunfang Wu

    英文論文

    Proceedings of 2013 International Conference on Asia Language Processing

    (IALP 2013)

     

     

    8

    基于多步聚類的漢語命名實體識別和歧義消解

    李廣一,王厚峰

    論文

    中文信息學(xué)報,2013(5)

    1萬字

     

    9

    Generalized Abbreviation Prediction with Negative Full Forms and Its

    Application on Improving Chinese Web Search

    Xu Sun, Wenjie Li, Fanqi Meng, Houfeng Wang

    英文論文

    International Joint Conference on Natural Language Processing, Oct. 2013

     

     

    10

    Exploring Representations from Unlabeled Data with Co-training for Chinese Word Segmentation

    張龍凱等

    英文論文

    Proceedings of the EMNLP2013,Oct.2013

     

     

    11

    Efficient Collective Entity Linking with Stacking

    何正焱等

    英文論文

    Proceedings of the EMNLP2013,Oct.2013

     

     

    12

    Chinese Discourse Relation Recognition Using Parallel Corpus

    Yifeng Xu,

    Yunfang Wu

    英文論文

    9th International Conference on Computational Intelligence and Security

     

     

    13

    基于生成詞庫論和論元結(jié)構(gòu)理論的語義知識體系研究

    袁毓林

     

    論文

    中文信息學(xué)報,2013(6)

    1.2萬

     

    14

    基于中文維基百科的詞語語義相關(guān)度計算

    萬富強(qiáng),吳云芳

    論文

    中文信息學(xué)報,2013(6)

    1.0萬

     

    15

    社交網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)挖掘

    范超,王厚峰

    論文

    中文信息學(xué)報,2014(1)

    1.2萬

     

    16

    漢語詞類劃分應(yīng)重視“排他法”

    周韌

    論文

    漢語學(xué)習(xí),2014(1)

    1.4萬

     

    17

    也談與“的”字結(jié)構(gòu)有關(guān)的謂詞隱含

    宋作艷

    論文

    漢語學(xué)習(xí),2014(1)

    1.2萬

     

    18

    基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計

    彭煒明等

    論文

    計算機(jī)工程與應(yīng)用,2014(3)

    1.2萬字

     

    19

    現(xiàn)代漢語“對象格”自動識別研究

    汪夢翔等

    論文

    計算機(jī)工程與應(yīng)用,2014(8)

    1.2萬字

     

    20

    中文信息處理的詞法問題

    彭煒明等

    論文

    中文信息學(xué)報,2014(2)

    1.2萬字

     

    21

    股市市場情感詞表的自動挖掘與構(gòu)建

    王菲,

    吳云芳

    論文

    2014漢語詞匯語義學(xué)研討會議(CLSW2014)

    1.0萬字

     

    22

    基于序列模式的應(yīng)答需求句識別

    徐藝峰,

    吳云芳

    論文

    2014漢語詞匯語義學(xué)研討會議(CLSW2014)

     

     

    23

    The Processing of Dummy Verbs in Semantic Role Labeling

    汪夢翔等

    英文

    論文

    CLSW 2014

    將在LNAI Springer-Verlag Berlin Heidelberg出版

     

     

    24

    基于依存語法構(gòu)建多視圖漢語樹庫

    邱立坤、金澎、王厚峰

    論文

    中文信息學(xué)報

    10000

    (已錄用)

    25

    Collaborative Topic Regression with Multiple Graphs Factorization for Recommendation in Social Media

    Qing Zhang, Houfeng Wang

    英文論文

    Proceedings of the 25th International Conference on Computational Linguistics

     

    (已錄用)

    26

    Building a Multi-view Chinese Treebank

    Likun Qiu, Yue Zhang, Peng Jin and Houfeng Wang

    英文論文

    Proceedings of the 25th International Conference on Computational Linguistics

     

    (已錄用)

    27

    “把”字句的自動釋義與句式變換研究

    王璐璐

    孫薇薇

    袁毓林

    論文

    計算機(jī)工程與應(yīng)用

    1.3萬字

    (已錄用)

    28

    基于規(guī)則的漢語名名組合的自動釋義研究

    魏雪、袁毓林

    論文

    中文信息學(xué)報

    1.3萬字

    (已錄用),擬在2014(3)發(fā)表

    29

    共指消解研究方法綜述

    宋洋,王厚峰

    論文

    中文信息學(xué)報

    1.5萬字

    (已錄用)

    30

    Feature-Frequency-Adaptive Online Trainingfor Fast and Accurate Natural Language Processing

    Xu Sun, Wenjie Li, Houfeng Wang, Qin Lu

    英文論文

    Computational Linguistics

     

    (已錄用,在線版已發(fā):http://www.

    mitpressjournals.

    org/doi/pdf/10.1162/

    COLI_a_00193)

    31

    一種基于文檔詞匯特征變化的突發(fā)事件檢測方法

    王厚峰,

    張龍凱

    專利

    中華人民共和國知識產(chǎn)權(quán)局

     

    (已申報)

    課題組供稿

    (責(zé)編:實習(xí)生、張文卓(實習(xí)生))
    久热爱精品视频在线| 182tv午夜精品视频在线播放| 北岛玲在线精品视频| 精品欧美一区二区在线观看| 宅男宅女精品国产av天堂| 中文字幕乱码亚洲精品一区| 国产乱码精品一区二区三区中| 久久久久久精品成人免费图片| 亚洲精品在线不卡| 91久久精品国产成人久久| 亚洲伊人精品综合在合线| 精品国内在视频线2019| 国产精品国产三级国产专播| 国产成人精品亚洲日本在线| 国内精品自线在拍2020不卡| 精品久久久一二三区| 国产精品美女一区二区三区| 国产精品一线二线三线| 国产美女精品久久久久久久免费 | 国产亚洲精品看片在线观看| 亚洲国产精品嫩草影院久久| 久久精品综合一区二区三区| 97在线精品视频| 精品九九久久国内精品| 久久久2019精品| 久久精品国产2020| 国产精品视频白浆合集| 精品国产免费观看久久久 | 久久久久精品国产亚洲AV无码| 国产成人精品视频播放| 青草久久精品亚洲综合专区| 亚洲精品人成无码中文毛片| 精品乱码久久久久久夜夜嗨| 久久亚洲精品视频| 99国产精品免费观看视频| 国产精品久久久久久福利69堂| 精品国产自在钱自| 国产精品女人呻吟在线观看 | 精品久久久久久无码人妻中文字幕| 国产精品成人免费综合| 精品成人一区二区三区四区|