语料库研究综述.docx
- 文档编号:30641871
- 上传时间:2023-08-18
- 格式:DOCX
- 页数:14
- 大小:27.85KB
语料库研究综述.docx
《语料库研究综述.docx》由会员分享,可在线阅读,更多相关《语料库研究综述.docx(14页珍藏版)》请在冰豆网上搜索。
语料库研究综述
语料库研究与应用综述
目录
一概述
二中国语料库建设的基本情况
三语料库的加工、管理和规范
四语料库在语言研究中的的应用
五参考文献
语料库研究与应用综述
一概述
语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:
(1)异质的(Heterogeneous):
没有特定的语料收集原则,广泛收集并原样存储各种语料;
(2)同质的(Homogeneous):
只收集同一类内容的语料;(3)系统的(Systematic):
根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):
只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:
(1)设计和规划:
主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)语料的采集:
主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)语料的加工:
包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)语料管理系统的建设:
包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5)语料库的应用:
针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。
进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。
90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。
当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。
对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。
语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。
另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。
从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。
由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况
90年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相同。
下面是其中已开始使用并且具有一定代表性的语料库。
(一)现代汉语通用语料库
这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。
语料来源是1919年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。
在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。
在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:
第一类:
人文与社会科学类(包括8个次类、30个细类)
1.政法类:
哲学政治宗教法律
2.历史类:
历史考古民族
3.社会类:
社会学心理语言文字教育文艺理论新闻民俗
4.经济类:
工业经济农业经济政治经济财贸经济
5.艺术类:
音乐美术舞蹈戏剧
6.文学类:
小说散文传记报告文学科幻口语
7.军体类:
军事体育
8.生活类
第二类:
自然科学类(包括6个次类)
1.数理类
2.生化类
3.天文地理类
4.海洋气象类
5.农林类
6.医药卫生类
第三类:
综合类(包括6个次类,30多个细类)
1.行政公文类:
请示报告批复命令指示布告纪要通知等
2.章程法规类:
章程条例细则制度公约办法法律条文等
3.司法文书类:
诉讼辩护词控告信委托书等
4.商业文告类:
说明广告调查报告经济合同等
5.礼仪辞令类:
欢迎词贺电讣告唁电慰问信祝酒词等
6.实用文书类:
请假条检讨申请书请愿书等
在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。
譬如,在语言材料的年限方面,选材比例是:
1919年–1925年5%1926年–1949年15%
1950年–1965年25%1966年–1976年5%
1977年以后50%
在语言材料的门类、语体和来源方面,选材比例是:
人文与社会科学类占59.6%。
其中各个次类在本大类中的比例是:
政法12.7%历史8.4%社会14.0%经济9.8%
艺术6.7%文学44.9%军体2.3%生活1.4%
自然科学类占17.24%。
其中各个次类在本大类中的比例是:
数理17.2%生化19.1%天文地理14.1%
海洋气象9.1%农林22.8%医药卫生17.7%
综合类占9.36%。
其中各个次类在本大类中的比例是:
各类应用文91.1%其他8.9%
报纸类占13.79%。
其中各个次类在本大类中的比例是:
全国性报刊25%省市报刊75%
这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:
总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。
用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。
语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。
到90年代末,完成了2000万字生语料的收录工作。
从2001年开始,对2000万字核心语料进行分词和词性标注加工。
(二)《人民日报》标注语料库
《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。
这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。
下面是一段语料标注的示例,对于1998年1月1日第5版第1篇文章的第11段:
我国的国有企业改革见成效。
位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。
图为东方红牌履带拖拉机生产线。
(赵鹏摄)
标注后的形式是:
19980101-05-001-011/m我国/n的/u国有/vn企业/n改革/v见/v成效/n。
/w位于/v河南/ns的/u[中国/ns一拖/j集团/n有限/a责任/n公司/n]nt面向/v市场/n,/w积极/ad调整/v产品/n结构/n,/w加快/v技术/n改造/vn和/c新/a产品/n研制/vn步伐/n。
/w图/n为/v东方红牌/nz履带/n拖拉机/n生产线/n。
/w(/w赵/nr鹏/nr摄/Vg)/w
在每一个切分出来的词和标点符号后面,是该词语的标记。
譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。
所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。
利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。
也可以从语料里提取各种语言单位或语句片段作为研究实例。
与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。
其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
(三)用于语言教学和研究的现代汉语语料库
建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。
前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。
汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。
作者先在北京和其他省市的9所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共3528988字。
再从中抽取了740人的1731篇语料,共有44218句,1041274字。
全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。
然后对这104万字的语料进行词语切分、词性标注以及一些专用的语言学特征标注。
例如,标出了字、词、句、篇等不同的层次,对语料的非规范形式(例如:
错字、别字、繁体字、拼音字、非规范词等)做出索引标记,记录其对应的规范形式。
这个语料库的管理系统有语篇属性登录、文本过滤、文字预处理信息登录、语料抽样、断句、分词、词性辅助标注、自动标注以及语料的主题检索、全文检索和数据浏览等各种功能,分别处理语料库的建立、管理和维护,以及用户浏览、查询和检索等。
与人工收集的学生病句卡片资料相比,中介语语料库能够更好地反映学生学习汉语的情况,帮助教师更加全面地观察他们的学习过程,了解影响学习和习得的各种因素。
在汉语作为第二语言的教学中,为教材编写、课堂教学、测试等环节提供依据。
现代汉语研究语料库的建设目标是为语言学家提供一个研究平台,由2000万字的粗语料库和200万字经过分词和词性标注的精语料库两个部分组成。
粗语料库收录的语料样本中绝大部分是九十年代的出版物,有《人民日报》1000万字,《中国新闻》500万字,各种书籍250万字,文学作品150万字,准口语材料(书面形式的对话、独白)100万字。
精语料库的200万字语料样本是从粗语料库中按照规定的比例由计算机随机抽取的,有书面语语料160万字,准口语语料40万字,是从语体、题材、体裁三个方面均衡选取的平衡语料库。
为了对这些语料进行词语切分和词性标注,作者制定了词语切分的细则和词性标记体系的原则,采用了一个含有112个词类标记的标记集,确定了兼类词的处理方法。
这个语料库的管理系统具有建库、检索、浏览、统计、输出等功能,可以按词或词类检索,统计出词的频率、词类频率、词类共现频率、平均词长、平均句长等结果。
这个语料库建成以后,很快应用在现代汉语语法、汉语教学和汉语信息处理的研究中,研究内容涉及现代汉语的插入语、汉语句子的主题-主语标注、V+N序列实验分析、词性标注中词语归类问题、动宾组合的自动获取与标注,等等。
建设北京地区现场即席话语语料库的目的是,通过收集大量的现场即席话语语料研究现场即席话语的各种动态机制,以揭示现场即席话语的使用规律。
这个语料库的研究策略和取样方法很有特点,首先是严格区分资源库和语料库,资源库收集符合现场即席话语定义的录音材料,语料库收录按照一定标准从资源库提取出来的材料;另外在语料采样前先做摸底性研究,通过研究对现场即席话语的真实情况有所了解,确定取样域,再定取样范畴,然后根据取样范畴去录现场典型材料,这是一种层次范畴化的取样方法。
这个语料库目前正在建设之中,已经取得了近600小时的录音材料和50多小时的录象材料。
在用于汉语研究的语料库中,讲究选材均衡,注重语料加工,同时也提供公开服务的,当数台湾中央研究院历史语言研究所的现代汉语平衡语料库(简称SinicaCorpus)。
这个语料库的规模为500万个词,每个句子都依词断开,标示词类标记,并且配备了检索系统,在网上开放供大家使用。
根据自己制定的一套汉语文本属性特征为语料分类,在不同的类别上尽量均衡地采集语料,是这个语料库的特点之一。
文本属性用来说明文档的呈现方式、文章的写作方式、文章写作的内容和文档的来源出处,包括7类,每类下设若干小类:
文类(文档的呈现方式)
报导、评论、广告图文、信函、公告启事、小说故事寓言、散文、
传记日记、诗歌、语录、说明手册、剧本、会话、演讲、会议记录
文体(文章的写作方式)
记叙、论说、说明、描写
语式(文档的呈现方式)
书面语、演讲稿、剧本/台辞、口语谈话、会议记录
主题(文章写作的内容)
哲学、科学、社会、艺术、生活、文学
媒体报纸、一般杂志、学术期刊、教科书、工具书、学术论著、一般图书、
书信、视听媒体、其它
作者姓名、性别、国籍、母语
出版出版单位、出版地、出版日期、版次
不同研究目的的语言学者可以自己按语式、文体、媒体和主题的小类选取不同类别的语料,组成“自订语料库”,在“自订语料库”的范围内进行语料的检索和统计。
除了通常的按词语、词类的检索和统计以外,这个语料库的管理系统还提供了一种“进阶处理”功能,对检索出来的数据作进一步处理,对处理的结果还可以再次处理,形成多层的检索结果。
(四)面向语言信息处理的现代汉语语料库
90年代中后期,面向语言信息处理的现代汉语语料库开始建立并投入应用。
其中最早开发的是清华大学用于研究和开发汉语自动分词技术的现代汉语语料库,经过几年的积累已达到8亿多字生语料。
在这个语料库的支持下,用统计语言模型的方法研究了汉语自动分词中的理论、算法和技术,编制了总数为9万多个词语的《信息处理用现代汉语分词词表》。
这些研究工作体现了我国汉语自动分词技术的发展水平,词表被许多汉语自动分词系统作为底表使用,是不可缺少的基础资源。
TH通用语料库系统是清华大学建立的另一个现代汉语语料库。
这个语料库有两个特点,一是语料库管理系统根据不同的加工深度,分四个等级管理语料。
第一级是生语料分库,有4千余万字;第二级以上都是加工程度不同的熟语料库,其中第二级存放经过自动分词并由人工校对过的初加工语料500余万字;第三级存放经过词性标注和人工校对的语料约300万字;第四级是经过句子成分标注和人工校对的语料。
每个分库又按语料的来源分成一般书籍、报纸、杂志、论文和工具书五类子库。
不同等级的语料可以为不同的应用目标服务。
第二个特点是在这个语料库的支持下,进行了汉语信息处理技术的研究。
譬如,采用以谓语为中心的句型成分分析与语料统计相结合的方法,自动分析汉语的句型,提出了一个“汉语句型频度表”;在汉语文本中自动标注句子成分和句型成分的边界;根据指定的句型在语料库里搜寻句子实例,等等。
HuaYu人工标注语料库是清华大学和北京语言大学合作建立的一个现代汉语平衡语料库。
这个语料库按文学、新闻、学术、应用文四个大类收录了200余万字语料。
它的特点是讲究加工的深度,除了词语切分和词性标注以外,还根据语句中动词的类型和句子的长度进行“语块”标注和“句法树”标注,目的是为建立汉语短语分析或句法分析的语言模型获取统计数据提供资源。
下面分别是语块标注和句法树标注的示例。
对句子“自古以来,人类就重视档案的保存和利用,设置馆库、选派专人进行管理。
”进行语块标注以后得到的是一个无嵌套的线性序列,其中S是主语语块,P是述语语块,O是宾语语块:
[D自/p古/t以来/f,/,[S人类/n[D就/d[P重视/v[O档案/n的/u保存/vN和/c利用/vN,/,[P设置/v[O馆库/n、/、[P选派/v[O专人/n[P进行/v[O管理v。
对句子“我哥哥送给我一本很漂亮的书。
”进行句法树标注以后,得到的是一个与树形结构等价的线性序列:
[zj-XX[dj-ZW[np-DZ我/rN哥哥/n][vp-PO[vp-PO[vp-SB送/v给/v]我/rN][np-DZ[mp-DZ一/m本/qN][np-DZ[ap-ZZ很/d漂亮/a]的/u书/n]]]]。
/w]
(五)用于开发特定语言分析技术的专用语料库
这类语料库是针对汉语信息处理技术的需要专门建立的。
例如山西大学的专有名词标注语料库和分词与词性标注语料库。
分词与词性标注语料库,规模为500万字,带有分词标记、词性标记和句法标记。
标注时依据《信息处理用现代汉语分词规范》和《信息处理用现代汉语词类及标记集规范》。
在这个语料库的支持下,开发汉语自动分词和词性标注软件,研究自动分词和词性标注的评测技术。
为了解决汉语自动分词中的切分歧义问题,还建立了交集型歧义字段库和组合型歧义字段库,专门收集这两种类型的歧义切分实例。
前者有7.8万字,后者收录了140多条。
并且在分词和词性标注语料库里作了这两类切分歧义的标注。
利用这些语料调查交集型歧义当中的“伪歧义”现象(既切分结果只可能有唯一选择的那些交集型歧义切分字段),发现这种现象在歧义切分字段中很普遍,可以达到90%以上。
专有名词标注语料库用于研究汉语自动分词中专有名词的识别算法。
其中包括标注了中国地名的语料280万字,标注了中国人姓名的语料300万字,标注了西文姓名的语料250万字,标注了汉语机构名称的语料50万字,还有标注了网络新词语的语料150万字。
利用这些语料,建立了中国地名用字、用词库,姓氏人名库,姓氏用字频率表,名字用字频率表等,用统计语言模型的方法识别专有名词。
(六)双语语料库
基于实例的机器翻译(Example-based)需要大规模的双语平行语料库来支持。
语料库里的源语和目标语实例要按照相同级别的翻译单位一一对齐。
目前已有的双语平行语料库主要是汉语和英语的,语料对齐的单位有句子级的、子句级的、短语级的,也有词汇级的。
机器翻译系统把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成译文。
用于这类机器翻译系统的双语语料库必须有一定的规模,用人工做语料对齐的工作显然很难满足要求。
这就使文本自动对齐成为建立双语语料库的关键技术。
在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。
这个语料库有6万个汉语和英语的句子,使用多级对齐加工技术,分别按照句子、短语结构和词一一对齐。
中国科学院计算技术研究所的汉英双语语料库有20万个句对,也完成了句子一级的对齐,并在网上提供查询服务。
北京大学、中国科学院软件研究所等单位也建立了按句对齐的汉英双语语料库。
除此之外,还有以语段或短语为单位收集的汉英双语语料库,譬如中国科学院自动化研究所的汉英双语短语库,有3~5万对已对齐的汉语和英语短语。
东北大学的英汉双语语段库,用来帮助建立电子版的英汉搭配词典。
(七)面向汉语史研究的语料库
面向汉语史研究的语料库建设是从搜集汉语史文献资料开始的。
台湾中央研究院历史语言研究所从90年代初期就开始了这项工作,他们先收集上古汉语的语料,然后扩展到中古汉语和近代汉语。
90年代中后期逐步开始上古汉语语料和近代汉语的标注,在该院信息研究所和计算中心的协助下进行标注技术和检索技术的开发。
根据是否经过分词处理和词性标注,台湾中央研究院的古汉语语料库和近代汉语语料库可以分成两类:
生语料库和标记语料库。
目前生语料库收集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)的大部分重要文献资料,并己陆续开放使用。
在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注工作,也逐步提供网上检索。
2001年底,开放了近代汉语标记语料库WWW版供各界使用,首先提供查询的文献是《红楼梦》及《三遂平妖传》。
在查询方面,除了常用的功能以外,还可以在显示词项及词类的同时给出例句的出处,便于历史语法的研究者使用。
多年来中国社会科学院语言研究所也一直在致力于文献资料的建设,搜集整理了近代汉语书面语语料150万字,中古近代汉语语料约1千万字,部分语料已作了标注。
目前已经完成了一个小型语料库,包括:
敦煌变文集、祖堂集、三朝北盟汇编、碧岩录、朱子语类、刘知远诸宫调、西厢记诸宫调、元刊全相平话五种、元典章刑部、老乞大谚解、朴通事谚解、孝经直解、鲁斋遗书、经筵讲义等十余种文献,成为汉语史和语言学理论研究的重要资源。
此外,语言研究所的先秦专书电子文档有4部文献,共约120万字,并且已由古汉语学者逐篇逐句标注了语法信息。
上海师范大学、浙江师范大学、四川大学等学校也依据各自汉语史研究的方向,建立了历史文献语料库。
四川大学的中古汉语语料库有1亿字的中古汉语语料和有关中古汉语研究的资料。
浙江师范大学的楚辞语库、前四史语库、六朝语库、太平广记语库、唐诗语库、宋词语库,已用于"前四史"语言研究和唐宋诗词语词研究。
目前历史文献语料库建设的特点是依托学科建设和研究方向,广泛收集资料,注重校勘精审。
随着汉语史研究和语料库应用的发展,资源共享和语料加工将得到越来越多的重视。
历史文献资源共享,首先要避免语料的重复收集,还要采用国际通用的标准处理语料文本,使语料能够准确、方便地交换和使用。
语料加工则是充分发掘语料应用价值的基础工作,从收集历史文献的电子文档,到建成一个具有必要的语言学标记信息、合理的逻辑结构和方便的检索功能的语料库,语料的加工是不可或缺的一步。
(八)比较语料库
为了研究汉语在不同地区的使用情况,香港城市大学建立了LIVAC共时语料库(LinguisticVariati
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语料库 研究 综述
