语料库
语料库(Corpus)就是存放语言材料的仓库,即语言数据库。基于语料库进行研究的的语言学叫语料库语言学。语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
自然语言处理以语料库为基础。下面为语料库示例:
语料库是以语言的真实材料为基础来呈现语言知识,反应语言单位的用法和意义,基本以知识的原始形态表现语言的原貌。
和语料库不同,语言知识库是由专家从大量实例中提炼、抽象、概括出来的系统的语言知识,如:电子词典、句法规则库、词法分析库等。
语料库概览:
语料库的分类
黄昌宁教授把语料库分为四种类型:
异质的,最简单的语料收集方法,没有事先规定和选材原则
同质的,只收集某类型的语料文本
系统的,充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题
专用的,只收集某一特定用途的语料。
按语言的种类划分:
单语语料库,双语语料库,多语语料库
按照语料的采集单位:
语篇语料库,语句语料库,短语语料库
按照语料库的语言形式:
口语语料库,书面语料库
按照是否标注:
具有词性标注,语法结构信息标注的,语义信息标注的
按照是否经过加工:
生语料:未加工的语料,没有任何切分、标注标记的原始语料库
熟语料:经过加工的,带有切分、标注的语料库
按照语料收集的分布:
平衡语料库:能全面反映领域特点
专门语料库:反应特定范围的特点
按照语料组织形式:
双语和多语语料库按照组织形式,可分为:
平行语料库
比较语料库
前者的语料构成译文关系,多用于机器翻译、双语词典的领域,后者用于语言的对比。
共时语料库
是为了对语言进行同一时间段研究而建立的语料库,如研究大树的横断面所见的细胞和细胞关系。即研究一个共时平面中元素和元素的关系。
历时语料库
是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞的演变,即研究一个历时切面中元素与元素关系的演化。
语料采集的原则
语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性、流通性
语料的分布性还要考虑:科学领域的分布、地域分布、时间分布、语体分布等。
语料库设计要考虑的问题
静态和动态,代表性和平衡性,规模,语料库的管理和维护
汉语语料库的知识产权
文本的知识产权和语料库的知识产权及其衍生品。中国目前相关法律法规是不完善的。
语料库的发展
语料库的发展至今共分为三代:
第一代语料库
布朗语料库
LOB语料库
LLC口语语料库
时间:1970-1980
特点:百万词级,语言研究。
第二代语料库
COBUILD语料库
Longman语料库
时间:1980-1990
特点:千万词级、词典编篡
第三代语料库
ACL/DCI语料库
UPenn树库
LDC
时间:1990至今
著名语料库
宾州大学树库(UPenn Tree Bank)
2000年完成第一版汉语树库,约十万词次,4185个句子。Chinese Tree Bank(CTB)中汉语词性被划分为33类,23类句法标记。
例句:他还提出一系列具体措施和政策要点。
分词标注:他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施NN/ 和/CC 政策/NN 要点/NN。
对该句进行结构标注:
PropBank
宾州大学树库后来在原来的基础上增加语义信息后构建了命题库PropBank。其基本观点认为,树库仅提供句子的句法结构信息,对于计算机理解人类语言是不够的。因此,PropBank的目标是对原树库中的句法节点标注上特定的论元标记(argument label),使其保持语义角色的相似性。比如:John broke the window.事件是“打碎”,John为事件的制造者(instigator),window为受事者(patient),窗户打碎为事件的结果。
例句:外商投资企业在改善中国出口商品结构中发挥了显著作用。
首先分析句子的结构:
给每个句子结构编号:
标注“改善”:
框架参数解析:
0:1-ARG0表示起始位置为0上溯深度为1(比如外商上溯1是NP-SBJ语义结构),语义角色为ARG0,ARG0是施事者;
3:1-ARGM-LOC表示起始位置3上溯深度1,语义角色为ARGM(修饰),LOC地点;
ARG1是受事者;rel是结束标记。
NomBank
NomBank是PropBank的孪生项目,它和PropBank标注的都是同一批树库,区别在于NomBank标注的都是树库中名词的词义和相关的论元信息。
宾州语篇树库PDTB
建造目标是开发一个标注语篇结构信息的大规模语料库,主要标注与语篇连通方式相关的一致关系。标注信息主要包括连通方式的论元结构、语义区分信息,以及连通方式和论元的修饰关系特征。
北京大学语料库
台湾中研院平衡语料库
布拉格依存树库(PDT)
由 捷克布拉格查尔斯大学数学物理学院形式与应用语言学研究所 组织开发,目前已经建成三个语料库:捷克语依存树库、捷克语-英语依存树库、阿拉伯语依存树库。
它包括三成标注:形态层:PDT的最底层,包含全部的形态信息标注;分析层:PDT的中间层,主要是依次关系中的表层句法信息标注,层次概念上接近于PennTreeBank的句法分析;深层语法层:PDT的最高层,表达句子的深层语法结构。
中国中文语言资源联盟(Chinese LDC)
CASIA-CASSIL语料库
WordNet
词汇知识库。
开发目的:解决词典中词义信息的组织问题。
开发规模:十万个英语词条,五大类词汇:名词、动词、形容词、副词、虚词。
WordNet按语义关系组织,语义关系可看作同义词集合之间的一些指针,语义关系是双向的。
WordNet里面有四种语义关系:同义关系(synonymy)、反义关系(antonymy)、上下位关系(hypernymy,或者叫比如枫树是树的下位)、部分关系(meronymy)
WordNet的应用:词汇消岐、语义推理和理解等。
HowNet
语料库的应用
基于大规模语料库的语音识别
基于大规模语料库的音子转换技术
基于大规模语料库的自动文本校对技术
利用语料库训练HMM模型进行分词,词性标注,词义标注
基于语料库的句法分析
基于语料库的机器翻译
基于机器学习技术,通过语料库获取语言知识
基于语料库的语言模型训练和语法模型评价
语料库的采集和加工
获取语料的途径
纸质媒介(OCR扫描或人工录入),互联网语料(通过爬虫的方式)
语料文件的数据格式
DOC, TXT, PDF, PS, RTF,以纯文本格式存放语料,便于计算机处理,可用字典的形式存放,而且需要考虑到字符编码方式。
语料选取标准
精品原则、有影响力原则、随机挑选原则、高流通度原则、典型性原则、易于获得原则、具有统计样本意义的原则、符合语言规范原则、语料库各类文本的比例均衡原则、专业语料库的建设应该有专业领域的专家参与。
语料库的编码
语料文件有几种规范:
TEI计划
SGML规范
CES标准
CES标准:
CES编码中语料中使用的标记需要进行说明-DTD:
一个DTD描述保存在*.dtd文件中
语料库的加工/标注类型:
词性标记,句法标记,词义标记,篇章指代标记,韵律标记
计算机辅助建库
双语语料库的对齐
段落对齐,句子对齐,词对齐,短语对齐
双语句子对齐的方法
基于长度的对齐方法:资源要求少,算法效率较高
基于词的对齐方法:依赖词典资源,算法效率较低
Gale&Church基于长度的对齐算法
参考文献
[1] 百度百科.语料库.
https://baike.baidu.com/item/%E8%AF%AD%E6%96%99%E5%BA%93/11029908?fr=aladdin
[2]百度文库:澄澈smile.语料库背景知识以及详细介绍.
https://wenku.baidu.com/view/76b7f56f9b6648d7c1c74676.html .2013-04-25