精品久久亚洲中文无码_亚洲乱码日产精品a级毛片久久_国产精品成人久久久久三级午夜电影_亚洲色无码国产精品网站可下载

舊版網(wǎng)站入口

站內(nèi)搜索

“面向網(wǎng)絡(luò)文本的多視角語義分析方法、語言知識庫及平臺建設(shè)研究”中期檢查情況

2015年07月31日10:52來源:全國哲學(xué)社會科學(xué)工作辦公室

一、研究進(jìn)展情況(可另加附頁)

主要內(nèi)容:①研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況;②調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會議、學(xué)術(shù)交流、國際合作等);③成果宣傳推介情況(成果發(fā)布會、《工作簡報(bào)》報(bào)送情況、國家社科基金專刊投稿及采用情況等);④研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議;⑤其他需要說明的問題。

① 研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況

本項(xiàng)目于2012年12月28日獲批立項(xiàng)。項(xiàng)目執(zhí)行時(shí)間是2013年1月 — 2017年12月。本項(xiàng)目的計(jì)劃與時(shí)間安排如下:

到2014年6月底,項(xiàng)目實(shí)施一年半,執(zhí)行時(shí)間還不到項(xiàng)目總計(jì)劃時(shí)間的三分之一。我們參照項(xiàng)目的上述計(jì)劃進(jìn)度,順利推進(jìn)項(xiàng)目,開展相關(guān)研究。

總體而言,在過去的一年半時(shí)間里,我們完成了相應(yīng)時(shí)間內(nèi)預(yù)期的任務(wù):知識庫的構(gòu)建取得階段性進(jìn)展,制定了知識表示框架,填寫了部分詞匯的知識;在多級語料庫的加工與挖掘方面,完成了規(guī)范的制定和試標(biāo)工作,為后續(xù)規(guī)模化的加工打下了良好的基礎(chǔ);設(shè)計(jì)了眾包平臺的總體框架,以語篇的指代關(guān)系標(biāo)注為例,在眾包平臺上發(fā)布標(biāo)注任務(wù);目前已通過使用平臺開始指代關(guān)系的標(biāo)注,并得到一定量的寶貴數(shù)據(jù);在多視角語義分析方面也取得了一系列的成果,縮略語識別、情感分析、實(shí)體關(guān)系分析等均取得研究進(jìn)展。

迄今為止,我們已經(jīng)發(fā)表學(xué)術(shù)論文23篇,接受待發(fā)表的論文7篇,共計(jì)30篇,已經(jīng)達(dá)到了計(jì)劃的全部論文數(shù),論文均標(biāo)有本項(xiàng)目資助號。其中有多篇論文發(fā)表于計(jì)算語言學(xué)領(lǐng)域的頂級國際會議。此外,還申請專利1項(xiàng)。可以說,本項(xiàng)目圓滿完成了相應(yīng)時(shí)期的任務(wù)。

下面分別介紹各子課題的進(jìn)展情況。

子課題1:基于生成詞庫理論和論元結(jié)構(gòu)理論的語義知識體系研究

(1) 已經(jīng)制定漢語名詞的物性結(jié)構(gòu)描寫和標(biāo)注體系,并通過試描述和組內(nèi)多次討論交流,對規(guī)范作了反復(fù)調(diào)整和完善。

(2) 以規(guī)范為依據(jù)描述了3000個左右的名詞的物性結(jié)構(gòu),共計(jì)200多萬字。對于高頻名詞的物性結(jié)構(gòu)標(biāo)注已經(jīng)基本完成,初步構(gòu)造了一個面對網(wǎng)絡(luò)文本分析的語言知識庫。

(3) 建立了一套漢語動詞、形容詞的論元結(jié)構(gòu)描寫體系和語義角色的標(biāo)注體系和規(guī)范,并且在北京大學(xué)現(xiàn)代漢語句法樹庫的語料上標(biāo)注了10多萬字,正在配備相關(guān)的索引軟件。

(4) 研制了一個在線漢語謂詞語義知識庫,包括為15,000多個常用動詞和形容詞的每一個義項(xiàng)(約40,000個條目)編制語義角色框架文檔,內(nèi)容包括:詞形、拼音、詞性、釋義、語義角色及其定義、配位方式及其實(shí)例、真實(shí)文本中的例子等。

子課題2:網(wǎng)絡(luò)文本的多級加工與語言知識挖掘研究

(1) 制定了漢語語料標(biāo)注的系列規(guī)范,包括“多視圖的漢語樹庫標(biāo)注規(guī)范”,“漢語句際關(guān)系的標(biāo)注體系”,“漢語口語語料庫對話行為標(biāo)注體系”等。

(2) 開發(fā)了多級多視圖語料標(biāo)注的系列計(jì)算機(jī)輔助軟件,并通過了試標(biāo)注的檢驗(yàn),達(dá)到了較好的效果。

(3) 為了分析網(wǎng)絡(luò)語言的特點(diǎn),標(biāo)注了部分網(wǎng)絡(luò)微博語料和口語對話語料中的依存關(guān)系和對話行為。

(4) 研究了網(wǎng)絡(luò)文本中的信息挖掘方法和對話語料中的對話行為分析方法。為多視角的語義分析提供了依據(jù)。

子課題3:基于群體智慧的知識資源加工技術(shù)及眾包平臺研究

(1) 設(shè)計(jì)了眾包平臺的基本構(gòu)建,在參與中包任務(wù)的用戶使用層面,設(shè)計(jì)實(shí)現(xiàn)了展示模塊,語料(知識)加工模塊,候選答案推薦模塊。

(2) 為檢查用戶對語料(知識)加工的質(zhì)量,設(shè)計(jì)了參與用戶的行為跟蹤記錄模塊,通過日志形式,動態(tài)記錄用戶的行為軌跡。

(3) 利用眾包平臺,發(fā)布了單數(shù)指代詞的指代關(guān)系標(biāo)注任務(wù)。并已有3人參與指代關(guān)系標(biāo)注的任務(wù),目前通過雙盲重復(fù)標(biāo)注的方式已完成了2025篇文章的標(biāo)注,同時(shí)也獲得了相關(guān)行為的日志信息,我們已對標(biāo)注情況進(jìn)行初步分析,以進(jìn)一步完善平臺。

(4) 利用眾包平臺,正在設(shè)計(jì)實(shí)現(xiàn)句間關(guān)系標(biāo)注的任務(wù),設(shè)計(jì)工作已基本完成,很快便可發(fā)布加工任務(wù)。

子課題4:知識與統(tǒng)計(jì)相結(jié)合的多視角文本語義分析技術(shù)研究

(1) 研究了微博語料的分詞方法。不同于規(guī)范的文本,微博的表達(dá)十分隨意,新詞頻現(xiàn),用詞不囿于通常的規(guī)律。但微博的標(biāo)點(diǎn)句短,非漢字的符號(包括標(biāo)點(diǎn))多,利用這一特點(diǎn),實(shí)現(xiàn)了微博分詞模塊。

(2) 研究了跨語言的情感分析方法,特別是,研究了利用英語的情感詞表自動獲取漢語情感詞的方法。這對于情感語義的分析將是非常重要的基礎(chǔ)資源。

(3) 研究了漢語縮略語的分析和預(yù)測方法。在網(wǎng)絡(luò)上,存在大量的縮略語現(xiàn)象。如何預(yù)測縮略語,建立縮略語與完整形式之間的關(guān)系,是分析理解縮略語的基礎(chǔ)。

(4) 研究了中文的指代方法,包括文本內(nèi)的指代關(guān)系和跨文本的同指關(guān)系。在文本內(nèi)的指代關(guān)系分析方面,我們重點(diǎn)研究了漢語零型指代的消解問題,在跨文本的指代消解中,重點(diǎn)研究了實(shí)體鏈接問題。

② 調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會議、學(xué)術(shù)交流、國際合作等)

過去的一年半時(shí)間正好是項(xiàng)目的開始期,按照研究的計(jì)劃安排,調(diào)查研究是本時(shí)期最重要的任務(wù)。為此,我們開展了如下工作:

(1) 進(jìn)行了大量的數(shù)據(jù)收集和分析:通過自動采集方式爬取了新浪微博、口語對話、博客、網(wǎng)上新聞等數(shù)據(jù),同時(shí),也收集了一定量的語音-文字轉(zhuǎn)換的結(jié)果數(shù)據(jù)。本項(xiàng)目收集上述數(shù)據(jù)的主要原因是,微博是典型的網(wǎng)上語言,而且是最具代表性的非規(guī)范語言特征。而口語對話則在一定程度上代表了聊天語言現(xiàn)象(包括即時(shí)通信),博客是一種相對規(guī)范的語言表示。收集語音-文字轉(zhuǎn)換數(shù)據(jù)主要原因是隨著移動互聯(lián)網(wǎng)的發(fā)展,語音將成為重要的信息表示形式。語音的處理通常需要先轉(zhuǎn)換為文本信息,以進(jìn)一步分析語義信息,這就需要分析相關(guān)材料。

(2) 收集查閱了大量的文獻(xiàn)資料。為了便于本項(xiàng)目更有效的開展,我們對國內(nèi)外的研究進(jìn)行了調(diào)研,重點(diǎn)查閱并收集了近幾年來相關(guān)研究的文獻(xiàn)資料,包括社交媒體的語言處理、不規(guī)范語言的處理方法、相關(guān)的語言知識庫及語料庫加工方法和加工平臺的研究狀況。查閱文獻(xiàn)資料100多篇(部)。為本項(xiàng)目的優(yōu)化實(shí)施起到了重要作用。

(3) 學(xué)術(shù)會議與學(xué)術(shù)交流方面,項(xiàng)目各子課題多次進(jìn)行了小組討論。參加了一系列的學(xué)術(shù)會議,包括2013年在保加利亞舉行的國際頂級計(jì)算語言學(xué)會議ACL,2013年在美國舉行的國際權(quán)威計(jì)算語言學(xué)會議EMNLP,2013年在日本舉行的IJNLP會議,以及在新加坡、臺灣等地舉辦的重要語言學(xué)國際學(xué)術(shù)會議和計(jì)算語言學(xué)國際學(xué)術(shù)會議。在國內(nèi),參加了多個重要會議,包括2013年全國計(jì)算語言學(xué),詞匯語義學(xué)會以,中文計(jì)算會議等,項(xiàng)目首席專家還應(yīng)邀在2013年的第14屆漢語詞匯語義學(xué)會議作特邀報(bào)告,并應(yīng)邀參與哈佛大學(xué)中文文本挖掘的研討會。此外,還與臺灣元智大學(xué)、香港理工大學(xué)合作開始了相關(guān)的合作研究。

③ 成果宣傳推介情況

在項(xiàng)目實(shí)施中,我們在多個不同場合介紹我們的項(xiàng)目情況。2013年在鄭州召開的漢語詞匯語義學(xué)會以(CLSW2013)上,項(xiàng)目首席專家王厚峰作為會議的特邀報(bào)告人(Keynote Speaker),重點(diǎn)介紹了本項(xiàng)目的情況和研究成果,而后在洛陽外國語學(xué)院、黑龍江大學(xué)、以及應(yīng)邀訪問美國哈佛大學(xué)時(shí),王厚峰均分別介紹了本項(xiàng)目的研究成果;在2013年6月到臺灣參加會議期間,也到交通大學(xué)介紹了本項(xiàng)目的研究情況。此外,我們也在計(jì)算語言學(xué)有影響的國際會議、國內(nèi)會議報(bào)告相關(guān)的成果,起到了很好的推介作用。

當(dāng)然,在這一年半的時(shí)間里,我們主要注意到了向本領(lǐng)域?qū)W術(shù)期刊和學(xué)術(shù)會議投稿,今后,我們將注意向國家社科基金專刊的投稿。

④ 研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議

本項(xiàng)研究我們基本上按照計(jì)劃進(jìn)行,并針對研究中的問題按課題進(jìn)行研討,總的來看,我們按正常方式推進(jìn)。目前暫沒有特別的建議。

二、研究成果情況

①代表性成果簡介

我們圍繞項(xiàng)目任務(wù)開展了多方面的研究,取得了一系列的成果,下面僅介紹幾項(xiàng)代表性的成果。

(1) 建立了名詞的物性結(jié)構(gòu)體系

根據(jù)Pustejovsky (1995、2006)的物性結(jié)構(gòu)描寫框架,結(jié)合漢語的實(shí)際情況,構(gòu)建了一套漢語名詞的物性描寫體系。說明如下:

(1)形式(formal,簡寫為FAL):名詞的分類屬性、語義類型和本體層級特征。比如,“石頭”是“有形物質(zhì)、自然物”;

(2)構(gòu)成(constitutive,簡寫為CON):名詞所指的事物的結(jié)構(gòu)屬性,包括:構(gòu)成狀態(tài)、組成成分、在更大的范圍內(nèi)構(gòu)成或組成哪些事物、跟其他事物的關(guān)系,也包括物體的大小(magnitude)、形狀(shape)、維度(dimensionality)、顏色(color)和方位(orientation),等等。比如,“石頭”的構(gòu)成是“礦物;可以根據(jù)下列顏色、形狀、作用等屬性進(jìn)行分類:彩色、黑色、紅色、褐色、白色、圓形、柱形、棱角分明、保健,等等”;

(3)單位(unite,簡寫為UNI):名詞所指事物的計(jì)量單位,也即跟名詞相應(yīng)的量詞;

(4)評價(jià)(evaluation,簡寫為EVA):對名詞所指事物的主觀評價(jià)、情感色彩。比如,對“水”的評價(jià)有“清、清澈、清潔、臟、渾、渾濁”;

(5)施成(agentive,簡寫為AGE):名詞所指的事物是怎樣形成的,如創(chuàng)造、天然存在、因果關(guān)系等。比如,“椅子”的施成是“制作、做、加工、編制”等等;

(6)材料(material,簡寫為MAT):創(chuàng)造名詞所指的事物所用的材料。比如,“椅子”的材料是“木頭、竹子、藤子、木、竹、藤、鋼、鐵、塑料、硬板”等等;

(7)功用(telic,簡寫為TEL):名詞所指的事物的用途和功能。比如,“椅子”的功用是“坐”等等;

(8)行為(action,簡寫為ACT):名詞所指的事物的慣常性的動作、行為、活動。比如,“水”的行為是“流、流動、奔騰、翻滾、滴、淌、流淌”等等;

(9)處置(handle,簡寫為HAN):人或其他事物對名詞所指的事物的慣常性的動作、行為、影響。比如,對“水”的處置是“打、舀、取、蓄、灑、放、排、倒、噴、潑、玩兒”等等。

目前,已經(jīng)完成了3000個名詞。下面僅以“商店”為例作說明:

商店 shāngdiàn〈名詞,中性〉在室內(nèi)出售商品的場所。

〔1〕物性角色:

形式FOR:機(jī)構(gòu)、場所、人造物;

構(gòu)成CON:可以根據(jù)所出售的東西類型進(jìn)行分類,如:百貨、五金、音樂器材、工藝品、土特產(chǎn)、綜合,等等;也可以根據(jù)其類型、等級、地區(qū)等進(jìn)行分類,如:大型、新型、高檔、高級、連鎖、水上、地下、社區(qū),等等。

單位UNI:個體:個、家、座,等等;集合:批、部分、種、類、排,等等;不定:各、每個、些,等等;

評價(jià)EVA:大、小、豪華、信譽(yù)良好、鱗次櫛比,等等;

施成AGE:開辦、興建、蓋、建造,等等;

行為ACT:賣飲料、掛出條幅、開門、開始工作、舉辦、開設(shè)、開張、營業(yè)、出臺促銷手段

功用TEL:出售商品,等等;

處置HAN:裝飾、拆除、走進(jìn)、出入、洗劫、沖擊、哄搶,等等

定位ORI:里、從、中、去、在、附近、到、向、通往、位于,等等。

〔2〕句法格式:

S1:CON + __

如:音樂器材~| 電腦~ | 工藝美術(shù)~ | 大型~ | 新型~ | 工藝品~ | 百貨~ | 高級~ | 普通~ | 五金~| 土特產(chǎn)~| 食品~ | 春節(jié)用品~ | 社區(qū)~ | 服裝~ | 網(wǎng)絡(luò)~ | 化妝品~ | 零售~ | 移動電話~ | 兒童~ | NBA~ | 化學(xué)品~ | 建材~ | 煙酒~ | 專業(yè)~ | 珠寶首飾~ | 連鎖~ | 批發(fā)~ | 個體~ | 計(jì)算機(jī)~

S2:Num + UNI + __

如:兩個~ | 許多~ |各種~ | 一家~ | 一座~| 一些~ | 一(大)批~ | 一排~

S3:EVA +(的+)__

如:大~ | 小~ | 鱗次櫛比的~ | 信譽(yù)良好~ | 豪華~

S4:AGE + __

如:開辦~ | 蓋~ | 建造~

S5: __ + ACT

如:~賣飲料 | ~掛出條幅 | ~開門 | ~開始工作 | ~開設(shè) | ~開張 | ~營業(yè) | ~開放 | ~出臺促銷手段 | ~舉辦 | ~打烊 | ~配備 | ~關(guān)閉 | ~停業(yè)

S6:__ + TEL

如:~出售商品

S7:HAN + __

如:裝飾~ | 拆除~ | 進(jìn)入~ | 走進(jìn)~ | 出入~ | 洗劫~ | 沖擊~ | 檢查~ | 焚燒~ | 打砸~ | 哄搶~ | 看守~

S8:ORI + __ / __ + ORI

如:~里 | ~中 | 在~ |~內(nèi) | 到~ | 從~| ~附近 | 往~ | 去~

名詞物性結(jié)構(gòu)有利于信息處理中文本蘊(yùn)涵推理計(jì)算,尤其對于一些名詞結(jié)構(gòu)中隱含謂詞的還原有著重要的意義。

(2) 制定了多視圖的漢語樹庫標(biāo)注規(guī)范并實(shí)現(xiàn)了樹庫輔助標(biāo)注工具

提出一套多視圖的漢語樹庫體系,這套體系以依存視圖為核心,在句法層面上僅僅標(biāo)注中心語和語法角色兩類信息,然后通過設(shè)計(jì)一套層次生成程序和結(jié)構(gòu)功能映射規(guī)則和算法推導(dǎo)出層次信息和短語結(jié)構(gòu)功能信息,從而自動轉(zhuǎn)換出相應(yīng)的短語結(jié)構(gòu)樹;在語義層面上,通過對部分語法標(biāo)簽的細(xì)化進(jìn)一步標(biāo)注語義角色標(biāo)簽,并通過虛詞的格傳遞來保證語法依存和語義依存在中心語上的一致性。最終生成的多視圖樹庫含有語法依存視圖、短語結(jié)構(gòu)視圖和語義依存視圖等三個視圖。如下是依存視圖的示例:

目前已有的句法結(jié)構(gòu)的語料基本都是單一地針對一種句法體系,如短語結(jié)構(gòu)或依存結(jié)構(gòu),不能滿足實(shí)際應(yīng)用的需求。我們構(gòu)建多視圖的樹庫,有助于實(shí)際使用者根據(jù)需求選擇不同視圖,或同時(shí)使用不同視圖的信息。

為了進(jìn)行了多視圖樹庫構(gòu)建的工作,我們開發(fā)了一套支持多視圖樹庫標(biāo)注的工具,該工具除基本標(biāo)注功能外,還包含人機(jī)互動校對和與語法詞典交叉驗(yàn)證的功能。用戶可以方便地添加、刪除依存弧,修改依存標(biāo)簽、檢索特定標(biāo)簽等。下圖是操作界面。

(3) 漢語句際關(guān)系的標(biāo)注體系

提出了漢語復(fù)句層次上句際層級結(jié)構(gòu)和邏輯關(guān)系的語料標(biāo)注體系。結(jié)構(gòu)關(guān)聯(lián)方面主要借鑒了英語RST理論,語義關(guān)聯(lián)方面主要借鑒了英語的PDTB篇章樹庫。小句之間通過各種語義關(guān)系的連接而形成一棵完整的層級結(jié)構(gòu)樹。提出了漢語句際的邏輯關(guān)系類型,這是漢語篇章分析的基礎(chǔ)。體系如下表所示:

第1層:CLASS

第2層:TYPE

第3層:SUBTYPE

聯(lián)合關(guān)系

(multi-nuclear)

并列(conjunction)

[CONJ]

○1等立(coordinate) [COOR]

○2時(shí)序(temporal) [TEMP]

○3選擇(alternative) [ALT]

○4遞進(jìn)(progression) [PROG]

○5順承(succession) [SUCC]

主從關(guān)系

(single-nuclear)

對比(comparison)

[COMP]

○6轉(zhuǎn)折(contrast) [CONT]

○7讓步(concession) [CONC]

推論(inference)

[INF]

○8因果(cause) [CAUS]

○9結(jié)果(result) [RESU]

○10目的(purpose) [PURP]

條件(condition)

[CON]

○11假設(shè)(hypothetical) [HYP]

○12條件(condition) [COND]

總分(specification)

[SPE]

○13解證(explanation) [EXPL]

○14分述(list) [LIST]

分總(summary)

[SUM]

○15總括(generalization) [GENE]

(4) 口語對話語料中對話行為的標(biāo)注規(guī)范

對話行為(dialog act)指在對話中(dialog)言談?wù)叩男袨橐鈭D。自動分析對話行為可以幫助識別言談?wù)叩囊鈭D、幫助構(gòu)建對話模型、提升口語機(jī)器翻譯系統(tǒng)的性能等。本項(xiàng)目第一次構(gòu)建了漢語領(lǐng)域完整的對話行為標(biāo)簽集。首先,對一個語句進(jìn)行言語切分(utterance segmentation),明確標(biāo)示出言語的界限;然后,每個言語片段標(biāo)示出一個明確的、惟一的對話行為標(biāo)簽。

Tag (Abbr.)

Description

Example

Statement

(S)

State a belief or an event

陳述一個信念或一個事件

我接下來圖片看一下啊先

Request

(R)

Express a speaker’s desire that the hearer do something

期望聽者做出一個動作或某種響應(yīng)

就是這個圖片 請接收一下

Open-question

(Q)

A question that can not be answered with only “yes” or “no”

不能單純用“是”和“否”來回答的問句

產(chǎn)生費(fèi)用怎么算?

Yes-No-question

(QYN)

A closed question which can be answered by either a “yes” or “no”

是非問句

這些圖片,你是從gettyimages上面找的么?

Opinion

(O)

(B)

Express opinions or unsatisfactory towards something or some services

對事情或服務(wù)發(fā)表評價(jià)或發(fā)出抱怨

那么貴?

Yes-answer

(AY)

A positive answer to a Yes-no-question

是非問句的肯定回答

對的

No-answer

(AN)

A negative answer to a Yes-no-question

是非問句的否定回答

不是

Answer

(AQ)

An answer to an open-question

開放問句的回答

咱們的圖片按照授權(quán)方式不同,分了2種

Response-ack

(RA)

Confirm that the previous request was received/accepted

對上一句需求性言語作出響應(yīng)

好的

Statement-ack

(SA)

Confirm that the previous statement was received/accepted

對上一句陳述作出響應(yīng)

client:抬頭 北京鼎尚利合餐飲管理有限公司

server:好的!收到!

Explain-why

(EW)

Explain further the reason of the previous utterance

對上一句言語進(jìn)一步解釋原因

client:手機(jī)和直郵能改嗎?

server:這個修改不了

server:用途由內(nèi)部系統(tǒng)生成

Conversational opening

(CO)

Greetings and other ways of starting a conversation

開始一個對話

你好

Conversational closing

(CC)

Various ways of ending a conversation

結(jié)束一個對話

Bye Bye

Conversational continuer

(CT)

Various ways of continuing a conversation

延續(xù)一個對話

呵呵

Thanks

(TH)

Express appreciation and thanks

表示感謝等禮貌用語

麻煩了,謝謝

Downplayer

(D)

A backwards-linking label often used after THANKS to down play the contribution

對感謝用語作出禮貌性的回應(yīng)

不客氣

Confirmation

(CF)

Verify or confirm a previous information

對上一句言語信息進(jìn)一步確認(rèn)

Server:大概從1000-3000不等。

Server:圖片價(jià)格大概1000-3000/張不等。

Entity

(EN)

Using non-verbal entity to convey information

用不成句的實(shí)體詞語傳輸信息

菲爾?米克爾森

Cut

(Cut)

The first part that constitutes a complete utterance

被切斷的一個言語的前半部分

server:咱們那張圖呀<CUT>

server:定下來了不哈?<QYN>

Chat

(CHAT)

Chat unrelated to business

完全與業(yè)務(wù)無關(guān)的閑聊

Uncertainty

(U)

Uncertain information

不確定的信息

(5) 設(shè)計(jì)實(shí)現(xiàn)了眾包平臺,并發(fā)布了單數(shù)人稱代詞的標(biāo)注任務(wù)

為了便于知識資源的加工,我們開發(fā)了一個眾包平臺,界面如下所示:

基本框架如下:

基于眾包平臺發(fā)布了單數(shù)人稱代詞的指代關(guān)系標(biāo)注。見如下界面:

通過眾包模式(Crowdsourcing)建設(shè)大規(guī)模的語料庫,可以讓大量的非專業(yè)人員參與語料庫標(biāo)注的工作,這有助于降低加工成本,提高加工效率。

(5) 設(shè)計(jì)實(shí)現(xiàn)了面向網(wǎng)絡(luò)短文本的漢語切詞模塊

網(wǎng)絡(luò)語言超出了通常規(guī)范語言的很多限制,使得計(jì)算機(jī)處理變得十分困難。而計(jì)算機(jī)分析中文的第一步通常是切詞。一般切詞工具在新聞文本上可以達(dá)到95%的F 值,在微博上則只有大約82% 。為此,我們特別研究了面向網(wǎng)絡(luò)短文本的漢語切詞方法,特別是針對微博的切詞方法。

現(xiàn)有的切詞方法大都使用有指導(dǎo)的序列標(biāo)注模型,如CRF。基本思想是對每個漢字賦予一個標(biāo)記,如,某個字是一個詞的開始字(標(biāo)B)或者不是一個詞的開始字(標(biāo)N)。已有的研究表明,有指導(dǎo)方法得到的切詞效果有著明顯的優(yōu)勢。但是,有指導(dǎo)的方法需要大量的有標(biāo)訓(xùn)練數(shù)據(jù),而構(gòu)建有標(biāo)訓(xùn)練數(shù)據(jù)既費(fèi)時(shí)又費(fèi)力。如何充分利用現(xiàn)有數(shù)據(jù)的特點(diǎn)便成為一個重要的問題。通過觀察,我們發(fā)現(xiàn),與一般的新聞文本相比,微博數(shù)據(jù)有明顯的自然標(biāo)記信息。下表是我們對一般新聞和微博中各類符號分布統(tǒng)計(jì)的比較值:

文本類型

漢字

英文字

數(shù)字

標(biāo)點(diǎn)符號

一般新聞

85.7%

0.6%

0.7%

13%

微博

66.3%

11.8%

2.6%

19.3%

顯然,微博中的非漢字比例大幅上升,比一般新聞的非漢字比例增加一倍以上。對于漢語分詞而言,英文字母,數(shù)字以及標(biāo)點(diǎn)符號都是自然的斷詞符號:自然標(biāo)記符后面的漢字是詞的開始字(B),同樣,自然標(biāo)記前面的一個漢字則是詞的末尾字。可以充分利用這些自然標(biāo)注改進(jìn)網(wǎng)絡(luò)短文本的切詞處理。我們基于上述觀察,自動獲得了大量的特殊標(biāo)注信息,并利用這些信息設(shè)計(jì)了切詞模塊,實(shí)驗(yàn)表明,我們所提方法與已有的方法相比,F(xiàn)值有顯著提升,達(dá)到了 87.5%。

注:2010年立項(xiàng)的重大項(xiàng)目主要填寫2012年6月以來的研究成果情況。

序號

成果名稱

作者

成果形式

刊物名或出版社、刊發(fā)或出版時(shí)間

字?jǐn)?shù)

轉(zhuǎn)載、引用、獲獎等情況

1

采用無標(biāo)注語料的動詞和形容詞主觀性評級

徐戈,蒙新泛,王厚峰

論文

軟件學(xué)報(bào),2013(5)

1.5萬字

 

2

The Acquisition of Chinese Ergative Verbs and the

Verification of Relevant Rules in Semantic Role Labeling

汪夢翔等

英文

論文

CLSW 2013,

LNAI 8229,

Springer-Verlag Berlin Heidelberg

 

 

3

Improving ChineseWord Segmentation on Micro-blog Using Rich

Punctuations

張龍凱等

英文論文

Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,

Sofia, Bulgaria, August 2013

 

 

4

Learning Entity Representation for Entity Disambiguation

何正焱等

英文論文

Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,

Sofia, Bulgaria, August 2013

 

 

5

“對不起”話語標(biāo)簽的形成及功能

汪夢翔等

論文

湖北社會科學(xué),2013(8)

7500

 

6

Judgment, Extraction and Selective Restriction of Chinese Eventive Verb

汪夢翔等

英文

論文

Proceedings of 2013 International Conference on Asia Language Processing

(IALP 2013)

IEEE Computer Society

 

 

7

Exploiting Hierarchical Discourse Structure for Review Sentiment Analysis

Fei Wang,

Yunfang Wu

英文論文

Proceedings of 2013 International Conference on Asia Language Processing

(IALP 2013)

 

 

8

基于多步聚類的漢語命名實(shí)體識別和歧義消解

李廣一,王厚峰

論文

中文信息學(xué)報(bào),2013(5)

1萬字

 

9

Generalized Abbreviation Prediction with Negative Full Forms and Its

Application on Improving Chinese Web Search

Xu Sun, Wenjie Li, Fanqi Meng, Houfeng Wang

英文論文

International Joint Conference on Natural Language Processing, Oct. 2013

 

 

10

Exploring Representations from Unlabeled Data with Co-training for Chinese Word Segmentation

張龍凱等

英文論文

Proceedings of the EMNLP2013,Oct.2013

 

 

11

Efficient Collective Entity Linking with Stacking

何正焱等

英文論文

Proceedings of the EMNLP2013,Oct.2013

 

 

12

Chinese Discourse Relation Recognition Using Parallel Corpus

Yifeng Xu,

Yunfang Wu

英文論文

9th International Conference on Computational Intelligence and Security

 

 

13

基于生成詞庫論和論元結(jié)構(gòu)理論的語義知識體系研究

袁毓林

 

論文

中文信息學(xué)報(bào),2013(6)

1.2萬

 

14

基于中文維基百科的詞語語義相關(guān)度計(jì)算

萬富強(qiáng),吳云芳

論文

中文信息學(xué)報(bào),2013(6)

1.0萬

 

15

社交網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)挖掘

范超,王厚峰

論文

中文信息學(xué)報(bào),2014(1)

1.2萬

 

16

漢語詞類劃分應(yīng)重視“排他法”

周韌

論文

漢語學(xué)習(xí),2014(1)

1.4萬

 

17

也談與“的”字結(jié)構(gòu)有關(guān)的謂詞隱含

宋作艷

論文

漢語學(xué)習(xí),2014(1)

1.2萬

 

18

基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計(jì)

彭煒明等

論文

計(jì)算機(jī)工程與應(yīng)用,2014(3)

1.2萬字

 

19

現(xiàn)代漢語“對象格”自動識別研究

汪夢翔等

論文

計(jì)算機(jī)工程與應(yīng)用,2014(8)

1.2萬字

 

20

中文信息處理的詞法問題

彭煒明等

論文

中文信息學(xué)報(bào),2014(2)

1.2萬字

 

21

股市市場情感詞表的自動挖掘與構(gòu)建

王菲,

吳云芳

論文

2014漢語詞匯語義學(xué)研討會議(CLSW2014)

1.0萬字

 

22

基于序列模式的應(yīng)答需求句識別

徐藝峰,

吳云芳

論文

2014漢語詞匯語義學(xué)研討會議(CLSW2014)

 

 

23

The Processing of Dummy Verbs in Semantic Role Labeling

汪夢翔等

英文

論文

CLSW 2014

將在LNAI Springer-Verlag Berlin Heidelberg出版

 

 

24

基于依存語法構(gòu)建多視圖漢語樹庫

邱立坤、金澎、王厚峰

論文

中文信息學(xué)報(bào)

10000

(已錄用)

25

Collaborative Topic Regression with Multiple Graphs Factorization for Recommendation in Social Media

Qing Zhang, Houfeng Wang

英文論文

Proceedings of the 25th International Conference on Computational Linguistics

 

(已錄用)

26

Building a Multi-view Chinese Treebank

Likun Qiu, Yue Zhang, Peng Jin and Houfeng Wang

英文論文

Proceedings of the 25th International Conference on Computational Linguistics

 

(已錄用)

27

“把”字句的自動釋義與句式變換研究

王璐璐

孫薇薇

袁毓林

論文

計(jì)算機(jī)工程與應(yīng)用

1.3萬字

(已錄用)

28

基于規(guī)則的漢語名名組合的自動釋義研究

魏雪、袁毓林

論文

中文信息學(xué)報(bào)

1.3萬字

(已錄用),擬在2014(3)發(fā)表

29

共指消解研究方法綜述

宋洋,王厚峰

論文

中文信息學(xué)報(bào)

1.5萬字

(已錄用)

30

Feature-Frequency-Adaptive Online Trainingfor Fast and Accurate Natural Language Processing

Xu Sun, Wenjie Li, Houfeng Wang, Qin Lu

英文論文

Computational Linguistics

 

(已錄用,在線版已發(fā):http://www.

mitpressjournals.

org/doi/pdf/10.1162/

COLI_a_00193)

31

一種基于文檔詞匯特征變化的突發(fā)事件檢測方法

王厚峰,

張龍凱

專利

中華人民共和國知識產(chǎn)權(quán)局

 

(已申報(bào))

課題組供稿

(責(zé)編:實(shí)習(xí)生、張文卓(實(shí)習(xí)生))
精品久久亚洲中文无码_亚洲乱码日产精品a级毛片久久_国产精品成人久久久久三级午夜电影_亚洲色无码国产精品网站可下载
  • <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    
    久久久久高清| 亚洲男女自偷自拍图片另类| 国内免费精品永久在线视频| 国产中文一区二区| 亚洲福利视频免费观看| 亚洲黄色在线看| 99国内精品| 欧美一区二区视频观看视频| 久久精品国产一区二区电影 | 亚洲国产欧美一区二区三区久久 | 一区二区三区自拍| 亚洲精品一区在线观看| 午夜激情综合网| 久久婷婷综合激情| 欧美视频在线观看视频极品| 黄色欧美日韩| 亚洲免费久久| 欧美在线亚洲综合一区| 嫩草影视亚洲| 国产啪精品视频| 亚洲人成网站在线观看播放| 亚洲欧美资源在线| 欧美区二区三区| 国内精品久久久久影院优| aa亚洲婷婷| 久久天天躁狠狠躁夜夜av| 国产精品久久久99| 亚洲人成啪啪网站| 久久久久久婷| 国产精品香蕉在线观看| 亚洲国产精品传媒在线观看| 午夜视频久久久久久| 欧美精品色网| 亚洲国产高清一区| 久久国产精品久久久久久电车| 欧美人妖在线观看| 亚洲国产精品久久精品怡红院| 午夜在线播放视频欧美| 欧美视频免费看| 91久久久久久| 免费成人在线视频网站| 国产一区二区日韩精品| 亚洲欧美日韩一区在线| 欧美视频一二三区| 亚洲精品精选| 欧美69视频| 亚洲大片免费看| 久久久国产精品一区| 国产欧美日韩综合精品二区| 午夜亚洲性色福利视频| 国产精品高潮久久| 一区二区不卡在线视频 午夜欧美不卡在| 久久久国产精品亚洲一区 | 亚洲欧美激情精品一区二区| 欧美日韩国产美女| 夜夜爽夜夜爽精品视频| 欧美激情精品久久久六区热门 | 欧美日韩精品系列| 99精品欧美| 欧美日韩理论| 亚洲午夜羞羞片| 国产精品久久久久久久久久ktv| 亚洲视频在线一区| 国产精品一区二区在线| 亚洲欧美视频在线观看视频| 国产日韩欧美麻豆| 久久久久久日产精品| 在线精品视频在线观看高清| 欧美www视频| 一区二区av| 国产欧美精品日韩精品| 久久精品国产一区二区电影| 韩日欧美一区| 欧美激情综合色| 亚洲一区二区视频在线| 国产午夜久久久久| 欧美丰满少妇xxxbbb| 日韩一区二区高清| 国产精品一香蕉国产线看观看| 欧美一区影院| 最新亚洲电影| 国产精品日日摸夜夜摸av| 久久久999成人| 亚洲毛片在线观看| 国产免费观看久久黄| 噜噜噜91成人网| 一区二区三区视频在线播放| 国产手机视频一区二区| 欧美大片免费看| 亚洲中无吗在线| 精品999网站| 国产精品大片免费观看| 久久综合一区| 亚洲香蕉视频| 亚洲成人原创| 国产精品视频久久久| 久久视频在线视频| 中日韩高清电影网| 在线播放中文字幕一区| 欧美日韩另类综合| 欧美在线免费视屏| 夜夜嗨av一区二区三区| 狠狠入ady亚洲精品| 国产精品久久久久久久久久免费| 久久精品99久久香蕉国产色戒| 99re6这里只有精品| 精品99一区二区| 国产精品五区| 欧美日韩第一页| 久久人人爽人人爽| 亚洲视频一区二区在线观看| 狠久久av成人天堂| 国产精品久久综合| 欧美日韩不卡| 另类欧美日韩国产在线| 久久精品中文字幕免费mv| 亚洲无线视频| 亚洲国产成人不卡| 黄色成人小视频| 国产在线成人| 国产精品毛片| 欧美三级中文字幕在线观看| 欧美激情在线有限公司| 免播放器亚洲| 老司机精品视频一区二区三区| 欧美在线影院| 欧美一二三区在线观看| 亚洲伊人久久综合| 在线亚洲欧美| 99视频精品| 亚洲免费高清| 一本色道久久88综合亚洲精品ⅰ| 在线观看欧美激情| 在线观看国产成人av片| **欧美日韩vr在线| 在线免费观看欧美| **欧美日韩vr在线| 一区二区在线观看视频| 在线观看三级视频欧美| 在线播放中文字幕一区| 亚洲第一精品夜夜躁人人爽| …久久精品99久久香蕉国产 | 国产精品xnxxcom| 欧美视频二区| 国产精品初高中精品久久| 国产精品久久久久久久久久直播| 欧美四级在线| 国产精品亚洲一区| 精品成人在线| 亚洲高清不卡| 一区二区三区高清视频在线观看| 亚洲国产婷婷香蕉久久久久久| 在线欧美三区| 一区二区高清| 亚洲影音先锋| 久久国产精品久久久久久电车| 美脚丝袜一区二区三区在线观看| 欧美寡妇偷汉性猛交| 欧美激情精品久久久久久变态| 欧美日韩亚洲在线| 国产欧美日韩视频| 亚洲国产欧美一区二区三区久久| 亚洲精品一区二区三区蜜桃久 | 在线日韩欧美| 一区二区av在线| 欧美与黑人午夜性猛交久久久| 另类综合日韩欧美亚洲| 欧美三区在线| 好看的日韩av电影| 制服丝袜亚洲播放| 欧美在线观看日本一区| 久久久精品国产免大香伊| 欧美连裤袜在线视频| 国产精品美女久久| 亚洲黄色成人网| 香蕉久久夜色精品国产使用方法| 欧美成人亚洲成人日韩成人| 国产精品免费一区豆花| 亚洲国产日本| 欧美一区二区三区免费在线看| 欧美黑人一区二区三区| 国产亚洲精品资源在线26u| 日韩视频一区二区在线观看| 久久精品盗摄| 国产精品国产三级国产普通话99| 一色屋精品亚洲香蕉网站| 亚洲欧美日韩一区二区三区在线观看 | 91久久国产精品91久久性色| 午夜激情一区| 国产精品二区在线| 亚洲日本成人网| 久久午夜电影网| 国产麻豆综合| 亚洲综合日韩在线| 欧美日本国产| 亚洲第一主播视频| 久久―日本道色综合久久| 国产伦精品一区二区三区照片91| 亚洲精品免费在线播放| 免费毛片一区二区三区久久久|