當前位置

首頁 > 英語閱讀 > 英語文化 > 現代漢語詞頻、詞性頻度查詢

現代漢語詞頻、詞性頻度查詢

推薦人: 來源: 閱讀: 1.46W 次

“現代漢語研究語料庫系統”研製成功
中國國家教委“八五”人文、社會科學規劃項目、北京語言學院“八五”重點科研項目——“現代漢語研究語料庫系統”於1996年1月29口在北京語言學院通過了專家鑑定。“現代漢語研究語料庫系統”於1993年初立項,1993年5月開始實施。課題組成員有:孫宏林、黃建平、孫德金、李德鈞、邢紅兵。課題組還聘請了常寶儒、胡明揚、黃昌寧、陸儉明、呂必鬆、張普等六位語言學、對外漢語教學和漢語信息處理界的知名學者作爲學術顧問。
“現代漢語研究語料庫系統”包括兩個層級的語料庫。第一級是一個從約6000萬字的原始材料中抽取出來的2000萬字規模的粗語料,其大致構成情況是:《人民日報》語料1000萬字,《中國新聞》語料500萬字,經濟、科普、知識等類書籍250萬字,錄入的樣本語料250萬字。錄入的樣本語料中包括文學作品150萬字(其中小說100萬字、散文30萬字、報告文學20萬字)和準口語材料100萬中(矣中對話部分60萬字,全部是話劇的腳本,獨白部分40萬字,包括單口相聲、評書、演講詞、講話、故事等)。這些語料中除了錄入的樣本中有一部分是80年代的出版物外,其他絕大部分是90年代的出版物。在這2000萬字粗語料庫的基礎上建立了一個文本屬性庫,屬性庫中除了有宇數、作者、標題、出版單位等信息外,還登錄了每一篇語料文本的題材類別和體裁類別。這2000萬字的粗語料庫目前採用電子部計算機與微電子發展研究中心(CCID)開發的 TIR全文檢索系統建成了四個分庫,可以進行基於宇串的檢索。
該語料庫的第二級是一個200萬字規模的精語料。這200萬字語料是在第一級的2000萬字語料中按照設定的比例由程序隨機捆取出來的。其中包括書面語語料160萬字和準口語語料40萬字。書面語語料按題材分爲10大類:政治和法律類30萬字,經濟類30萬字,文學類37.5萬字,文化教育類15萬字,社會生活類15萬字,科技和科普類12萬字,體育類8萬字,地理和旅遊類5萬字,歷史類2.5萬字,軍事類5萬字。準口語材料中對話(話劇腳本)部分25萬字,獨自部分15萬字。這200萬字全部進行了切詞和詞性標註的處理。詞性標註採用了112個標記的標記集,其中詞類標記85個,標點符號等標記27個。詞類標記採用層級體系,第一層分爲名詞、動詞、形容詞、數詞、量詞、代詞、副詞、介詞、助詞、連詞、語氣詞、象聲詞、嘆詞等13類,並加上成語、準後綴、插入語等類。在這些大類之下又分出第二層小類,如名詞分爲普通名詞、專名、時間詞、處所詞、方位詞等類,動詞分爲助動詞、系動詞、形式動詞、動詞作體詞用、動詞作謂詞用等等,有的在第二層之下又分出第三層小類,如動詞作體詞用時根據其具體功能又分爲動詞作主語、動詞作賓語、動詞直接作 NP的修飾語、動詞直接作 NP的中心語,動詞作謂詞用時根據其帶賓語的情況又分爲不帶賓、帶體詞賓語、帶動賓、帶形容詞賓語、帶小句賓語、帶雙賓、帶兼語賓語等類。這些標記中除了一般靜態的詞類標記外,還加上了一些句法信息。這便於不同詞類體系的兼容和對一些詞類的進一步研究。
在200萬字標註語料的基礎上建立一個包括建庫、檢索、測覽、輸出、幫助等模塊的語料庫檢索系統。該系統的檢索方式是例句檢索和 KWIC(Key Word in Context)檢索。例句檢索支持位置操作、邏輯操作和詞性的模糊檢索,檢索式的定義符合語言學工作者的習慣,靈活方便。 KWIC檢索可以快速地查出一個檢索元素(詞、詞性或帶詞性的詞)的上下文,上文或下文的詞數可以任意定義。所有檢索結果都可以在屏幕上測覽,可以測覽例句,也可以酗覽例句所在的段落,關鍵宇都用特殊顏色現實,十分直觀。檢索的結果也可以輸出到文本文件、例句庫中或打印機上。該系統在 Windows環境下運行,界面友好,操作簡單方便,
“現代漢語研究語料庫系統”鑑定委員會由中國中文信息學會理事長、中國工程院院士陳力爲先生擔任主席,中國人民大學胡明揚教授、清華大學黃昌寧教授、北京大學陸儉明教授、中國社會科學院語言研究所徐樞研究員☆北京大學俞士漢教授擔任鑑定委員。鑑定委員會還組成了以俞士漢教授爲組長,北京語言學院趙金銘教授和張旺嘉副教授爲成員的測試小組,1月28日測試小組從標註的語料庫中隨機抽取出兩篇語料,逐詞檢查了分詞和詞性標註的情況。經測試,語料庫分詞的準確率爲99.66%,詞性標註的準確率爲99.07%。1月29日召開了成果鑑定會。鑑定委員會聽取了課題組的研製報告和技術報告,聽取了鑑定委員會測試小組的測試報告和兩份用戶報告;審查了課題的各種文字檔案材料,並觀看了軟件系統的現場演示。經過認真的討論,鑑定委員會認爲:
一、“現代漢語研究語料庫系統☆是進行大規模現代漢語語言事實調查研究的重要工具,爲高效、全面、科學地進行現代漢語研究(特別是語法研究)提供了強大的技術保證。該語料庫的建成必將極大地促進漢語研究手段的現代化,提高漢語研究的效率和水平。因此,“現代漢語研究南料庫系統”無論在理論研究方面還是在應用研究方面都具有十分重要的意義。
二、“現代漢語研究密料庫系統”也是漢語教學領域的一個重要的研究平臺,特別是對於對外漢語教學具有重要作用。該系統可以在詞彙統計、分級,例句檢索、教材編寫、工具書編寫等方面爲漢語教學王作者提供全方位的查詢服務。因此,該語料庫的建成將極大地促進漢語教學水平的提高。
三、“現代漢語研究語料庫系統”在制定現代漢語的分詞和詞性標註規範方面進行了比較深入的研究,既做到了較好的可操作性,又達到了使不同語法觀點的研究人員共享和複用的目的。這爲大規模漢語語料庫的標註工作積累了經驗,對於語料庫研究工作的進一步開展具有重要意義。
“現代漢語研究語料庫系統”,語料規模較大,題材、體裁範圍廣泛,抽樣合理,語料加工科學,正確率甚高;語料庫系統設計合理,功能齊備,便捷實用。該語料庫是現代漢語研究、現代漢語教學、漢語信息處理研究的寶貴資源和重要的基礎工程,爲漢語言研究工作者提供了一個基於大規模真實語料的現代化的研究環境和技術手段。它的研製成功標誌着漢語語料庫建設取得了新的進展,達到了國內外先進水平。

現代漢語詞頻、詞性頻度查詢