NLP-语料库基础知识

语料库

语料库(Corpus)就是存放语言材料的仓库,即语言数据库。基于语料库进行研究的的语言学叫语料库语言学。语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。

自然语言处理以语料库为基础。下面为语料库示例:

1.jpg

2.jpg

2.jpg

3.jpg

4.jpg4.jpg

语料库是以语言的真实材料为基础来呈现语言知识,反应语言单位的用法和意义,基本以知识的原始形态表现语言的原貌。

和语料库不同,语言知识库是由专家从大量实例中提炼、抽象、概括出来的系统的语言知识,如:电子词典、句法规则库、词法分析库等。

语料库概览:

5.jpg 

语料库的分类

黄昌宁教授把语料库分为四种类型:

异质的,最简单的语料收集方法,没有事先规定和选材原则

同质的,只收集某类型的语料文本

系统的,充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题

专用的,只收集某一特定用途的语料。

 

按语言的种类划分:

单语语料库,双语语料库,多语语料库

 

按照语料的采集单位:

语篇语料库,语句语料库,短语语料库

 

按照语料库的语言形式:

口语语料库,书面语料库

 

按照是否标注:

具有词性标注,语法结构信息标注的,语义信息标注的

 

按照是否经过加工:

生语料:未加工的语料,没有任何切分、标注标记的原始语料库

熟语料:经过加工的,带有切分、标注的语料库

 

按照语料收集的分布:

平衡语料库:能全面反映领域特点

专门语料库:反应特定范围的特点

 

         按照语料组织形式:

双语和多语语料库按照组织形式,可分为:

平行语料库

比较语料库

前者的语料构成译文关系,多用于机器翻译、双语词典的领域,后者用于语言的对比。

 

共时语料库

是为了对语言进行同一时间段研究而建立的语料库,如研究大树的横断面所见的细胞和细胞关系。即研究一个共时平面中元素和元素的关系。

历时语料库

是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞的演变,即研究一个历时切面中元素与元素关系的演化。

语料采集的原则

语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性、流通性

语料的分布性还要考虑:科学领域的分布、地域分布、时间分布、语体分布等。

语料库设计要考虑的问题

静态和动态,代表性和平衡性,规模,语料库的管理和维护

汉语语料库的知识产权

文本的知识产权和语料库的知识产权及其衍生品。中国目前相关法律法规是不完善的。

语料库的发展

语料库的发展至今共分为三代:

第一代语料库

布朗语料库

LOB语料库

LLC口语语料库

时间:1970-1980

特点:百万词级,语言研究。

第二代语料库

      COBUILD语料库

Longman语料库

时间:1980-1990

特点:千万词级、词典编篡

第三代语料库

    ACL/DCI语料库

    UPenn树库

    LDC

    时间:1990至今

著名语料库                                                           

宾州大学树库(UPenn Tree Bank)

2000年完成第一版汉语树库,约十万词次,4185个句子。Chinese Tree Bank(CTB)中汉语词性被划分为33类,23类句法标记。

例句:他还提出一系列具体措施和政策要点。

分词标注:他/PN /AD 提出/VV /CD 系列/M 具体/JJ 措施NN/ /CC 政策/NN 要点/NN

对该句进行结构标注:

6.png

7.png

PropBank

宾州大学树库后来在原来的基础上增加语义信息后构建了命题库PropBank。其基本观点认为,树库仅提供句子的句法结构信息,对于计算机理解人类语言是不够的。因此,PropBank的目标是对原树库中的句法节点标注上特定的论元标记(argument label),使其保持语义角色的相似性。比如:John broke the window.事件是打碎John为事件的制造者(instigator)window为受事者(patient),窗户打碎为事件的结果。

例句:外商投资企业在改善中国出口商品结构中发挥了显著作用。

首先分析句子的结构:

8.png

给每个句子结构编号:

9.png 

标注“改善”:

10.png

框架参数解析:

0:1-ARG0表示起始位置为0上溯深度为1(比如外商上溯1NP-SBJ语义结构),语义角色为ARG0ARG0是施事者;

3:1-ARGM-LOC表示起始位置3上溯深度1,语义角色为ARGM(修饰),LOC地点;

ARG1是受事者;rel是结束标记。

NomBank

NomBankPropBank的孪生项目,它和PropBank标注的都是同一批树库,区别在于NomBank标注的都是树库中名词的词义和相关的论元信息。

宾州语篇树库PDTB

建造目标是开发一个标注语篇结构信息的大规模语料库,主要标注与语篇连通方式相关的一致关系。标注信息主要包括连通方式的论元结构、语义区分信息,以及连通方式和论元的修饰关系特征。

北京大学语料库

台湾中研院平衡语料库

布拉格依存树库(PDT)

捷克布拉格查尔斯大学数学物理学院形式与应用语言学研究所 组织开发,目前已经建成三个语料库:捷克语依存树库、捷克语-英语依存树库、阿拉伯语依存树库。

它包括三成标注:形态层PDT的最底层,包含全部的形态信息标注;分析层PDT的中间层,主要是依次关系中的表层句法信息标注,层次概念上接近于PennTreeBank的句法分析;深层语法层PDT的最高层,表达句子的深层语法结构。

中国中文语言资源联盟(Chinese LDC)

CASIA-CASSIL语料库

WordNet

词汇知识库。

开发目的:解决词典中词义信息的组织问题。

开发规模:十万个英语词条,五大类词汇:名词、动词、形容词、副词、虚词。

WordNet语义关系组织,语义关系可看作同义词集合之间的一些指针,语义关系是双向的。

WordNet里面有四种语义关系:同义关系synonymy)、反义关系antonymy)、上下位关系hypernymy,或者叫比如枫树是树的下位)、部分关系meronymy

WordNet的应用:词汇消岐、语义推理和理解等。

HowNet

语料库的应用

基于大规模语料库的语音识别

基于大规模语料库的音子转换技术

基于大规模语料库的自动文本校对技术

利用语料库训练HMM模型进行分词,词性标注,词义标注

基于语料库的句法分析

基于语料库的机器翻译

基于机器学习技术,通过语料库获取语言知识

基于语料库的语言模型训练和语法模型评价

语料库的采集和加工

获取语料的途径

纸质媒介(OCR扫描或人工录入),互联网语料(通过爬虫的方式)

语料文件的数据格式

DOC, TXT, PDF, PS, RTF,以纯文本格式存放语料,便于计算机处理,可用字典的形式存放,而且需要考虑到字符编码方式。

语料选取标准

精品原则、有影响力原则、随机挑选原则、高流通度原则、典型性原则、易于获得原则、具有统计样本意义的原则、符合语言规范原则、语料库各类文本的比例均衡原则、专业语料库的建设应该有专业领域的专家参与。

语料库的编码

语料文件有几种规范:

TEI计划

SGML规范

CES标准

 

CES标准:

11.jpg

CES编码中语料中使用的标记需要进行说明-DTD:

12.png

一个DTD描述保存在*.dtd文件中

语料库的加工/标注类型:

词性标记,句法标记,词义标记,篇章指代标记,韵律标记

计算机辅助建库

13.png

双语语料库的对齐

段落对齐,句子对齐,词对齐,短语对齐

双语句子对齐的方法

基于长度的对齐方法:资源要求少,算法效率较高

基于词的对齐方法:依赖词典资源,算法效率较低

Gale&Church基于长度的对齐算法

参考文献

[1] 百度百科.语料库.

https://baike.baidu.com/item/%E8%AF%AD%E6%96%99%E5%BA%93/11029908?fr=aladdin

[2]百度文库:澄澈smile.语料库背景知识以及详细介绍.

https://wenku.baidu.com/view/76b7f56f9b6648d7c1c74676.html .2013-04-25


上一篇:
下一篇:

首页 所有文章 机器人 计算机视觉 自然语言处理 机器学习 编程随笔 关于