973当代汉语文本语料库分词词性标注加工规范.docx
- 文档编号:4494403
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:25
- 大小:36.17KB
973当代汉语文本语料库分词词性标注加工规范.docx
《973当代汉语文本语料库分词词性标注加工规范.docx》由会员分享,可在线阅读,更多相关《973当代汉语文本语料库分词词性标注加工规范.docx(25页珍藏版)》请在冰豆网上搜索。
973当代汉语文本语料库分词词性标注加工规范
973当代汉语文本语料库分词、词性标注加工规范
(草案)
山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。
这次承担973任务后制定出本规范。
本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年
2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布
3.《现代汉语语料库文本分词规范》(Ver3.0),1998年
北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系
4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年
北京大学计算语言学研究所
5.《信息处理用现代汉语词类标记规范》,2002年,
教育部语言文字应用研究所计算语言学研究室
6.《现代汉语语料库文本分词规范说明》,2000年
山西大学计算机科学系山西大学计算机应用研究所
7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会
一、分词总则
1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。
本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。
追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。
本文中仍用“词”来称谓“分词单位”。
3.分词中充分考虑形式与意义的统一。
形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。
4.本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。
5.分词时遵循从大到小的原则逐层顺序切分。
一时难以判定是否切分的结构体,暂不切分。
二、词性标注总则
信息处理用现代汉语词性标注主要原则有三个:
(1)语法功能原则。
语法功能是词类划分的主要依据。
词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。
(2)允许有兼类。
根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。
在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。
(3)词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。
为满足计算机处理真实文本词类标注的需要,本规范所定义的标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。
三、词类标记集
本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。
本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。
标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。
词类分别为:
(1)名词n:
普通名词(n)
时间名词(nt)
方位名词(nd)
处所名词(nl)
人名(nh)
汉族或类汉族人名(人名nhh:
姓nhf,名nhg)
音译名或类音译名(nhy)
日本人名(nhr)
其他(nhw):
如绰号,笔名,尊称等。
地名(ns)
族名(nn)
团体机构名(ni)
其他专有名词(nz)
(2)动词v:
普通动词(v)
能愿动词(vu)
趋向动词(vd)
系动词(vl)
(3)形容词:
性质形容词(aq)
状态形容词(as)
(4)区别词f
(5)数词m
(6)量词q
(7)副词d
(8)代词r
(9)介词p
(10)连词c
(11)助词u
(12)叹词e
(13)拟声词o
(14)习用语i
名词性习用语(in)
动词性习用语(iv)
形容词性习用语(ia)
连词性习用语(ic)
(15)简称和略语j
名词性简称和略语jn
动词性简称和略语jv
形容词性简称和略语ja
(16)前接成分h
(17)后接成分k
(18)语素字g
(19)非语素字x
(20)其它w:
标点符号(wp)
非汉字字符串(ws)
其他未知的符号(wu)
四、细则
1.本规范参照GB/T13715-92的做法,以词类为纲对各类单位作具体切分与词性标注规定。
2.本次加工规定,凡是收入词表中的词语,不再遵循本规范进行切分。
所使用词表的收词原则遵从清华大学《信息处理用现代汉语分词词表》规范。
3.独立性较强的语素字均标注词类,减少语素字标记的比例。
4.大类与细类可兼类。
五、分词与词性标注的详细说明
1.名词(n)
表示人和事物的名称或时间、处所等,在句中主要充当主语和宾语。
1.l普通名词(n)
表示人和事物的名称
1.1.l合成式
[1]并列关系
凡是使用稳定、结合紧密的二字并列关系名词一律为分词单位。
如:
省市/n房屋/n资金/n
其余双音节的只要能扩展,则可切分。
三音节以上的结构体能扩展的应切分。
例如:
省/n市/n县/n
[2]定中关系
A.[名十名]
对2至4音节组合,如其中一部分音节长度为1,一般来说,整体不切分。
例如:
阵营/n风波/n法人/n饭店/n
大气层/n火车站/n州政府/n
凤仙花汁/n芭蕾舞裙/n
对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。
例如:
中国/ns公民/n软件/n程序/n文件/n精神/n
知识产权/n技术人员/n航空母舰/n绿色食品/n集团公司/n
5音节以上的组合原则上切开。
例如:
律师/n资格/n获得者/n超线程/n技术/n
B.[动十名]
对2至4音节组合,构成动宾式合成词时,如其中一部分音节长度为1,则整体不切分。
例如:
编号/n贷款/n报表/n
代名词/n承包商/n负责人/n影响力/n
说明:
“动+名”如为述宾结构的短语,应切分开。
如:
看/v电影/n洗/v衣服/n买/v东西/n
但有些结合紧密或使用稳定的述宾结构已在词典中登录,则处理成一个切分单位,标注为动词v,如:
吃饭/v跳舞/v唱歌/v。
对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。
如:
等待/v时间/n设计/v方案/n生产关系/n
C.[形十名]
以下几种情况不切分,整体标注名词,其余情况切分。
a.形容词反映的是名词所指事物的典型属性,如:
咸盐/n白雪/n蓝天/n绿叶/n白兔/n红花/n绿草/n冷水/n低价/n
b.形容词具有分类作用而不是临时指别作用,如:
体细胞/n小桥/n矮个子/n
c.形容词与名词的组合有一定象征意义。
如:
红旗/n
d.形容词与名词的切分意义发生了变化。
如:
黑市/n软盘/n白菜/n冷门/n小金库/n多媒体/n
D.[量十名]
双音节的不切分,整体标注为n。
如:
度数/n天数/n个数/n页数/n种数/n次数/n
三音节以上的切分,量词与名词分别标注。
例如:
亩/q产量/n公里/q数/n
E.[数十名]
a.表序数的一般要切分,数词与名词分别标注。
例如:
五/m楼/n三/m厂/n
b.省略量词的组合,整体不作为分词单位,分别标注。
如:
两/m脚/n都/d是/v泥/n
c.其余的组合,不切分,标注为n。
例如:
半岛/n半球/n二心/n六指儿/n两头/n
[3]主谓关系
结构体在上下文中呈体词性时,无论音节多少,均不切分,标注为n。
例如:
癌变/n海啸/n脑溢血/n
1.1.2附加式
附加式包括如下几部分构词形式
[1]前接成分十语素或词
[2]语素或词+后接成分
[3]前接成分+语素或词+后接成分
这类名词的切分和标注规则见前后接成分。
1.1.3重叠式。
不切分。
例如:
人人/n家家/n山山水水/n方方面面/n
1.1.4明显带排行的亲属称谓不切开。
三哥/n大婶/n大女儿/n大哥/n小弟/n老爸/n
1.1.5专业术语
[1]专业术语四音节以下(含四音节)的一般不切分,标注n,四音节以上的按词切分。
例如:
不定积分/n氯胺酮/n汇编语言/n生物化学/n多/a弹头/n导弹/n
[2]食谱上的菜名一般不切分,标注n。
八宝粥/n霉干菜/n松鼠鳜鱼/n红烧肉/n,
鸡蛋汤/n芝麻饼/n鸡丝面/n
1.2时间名词(nt)
表示时间。
[1]一周的七天,农历的初一到初十,“(大)年初一”到“(大)年初十”不切分。
例:
星期一/nt初三/nt年初二/nt大年初一/nt
[2]年月日时分秒,按年、月、日、时、分、秒切分,标注为nt。
1997/m年/nt3/m月/nt19/m日/nt,
下午/nt2/m时/nt18/m分/nt35/m秒/nt
[3]朝代名不切分,标注为nt。
例如:
唐朝/nt南北朝/nt清代/nt
[4]著名的节日名,不切分,标注为nt。
例如:
春节/nt圣诞节/nt国庆节/nt复活节/nt三八妇女节/nt“六一”儿童节/nt
[5]“前、后、上、下、大前、大后、头”加“天”或“上/下”加“月/周/星期”时,不切分,标注为nt。
例如:
前天/nt大前天/nt头天/nt上周/nt上月/nt下星期/nt
但是中间加数词或量词时切开。
例如:
前/nd几/m天/nt上/nd半/m年/nt上/nd个/q月/nt下/nd个/q星期/nt
[6]“点钟、分钟、秒钟、刻钟”不切分,标注为nt:
一/m点钟/nt十/m秒钟/nt
[7]“年间”不切分。
例如:
乾隆/nhh年间/nt战乱/j年间/nt
[8]“年终、此间、公元前、前不久”均不切分,标注为nt。
[9]十二生宵表示的年不切分,标注为nt。
例如:
牛年/nt虎年/nt
[10]以天干、地支表示的年不切分,标注为nt。
例如:
甲午年/nt、庚子/nt、戊戌/nt
[11]二十四节气不切分,标注nt。
例如:
春分/nt惊蛰/nt
[12]数字与“:
”或“-”结合在一起的表示具体时间的串,整体标注nt。
如:
08:
35:
28/nt2003-03-29/nt
1.3方位名词(nd)
表示位置、时间、数的相对方向或范围的词语。
方位词分为单纯方位词和合成方位词两种,一般来说,方位词和名词组合后(方位结构),构成处所词或时间词。
[l]方位词前置作修饰语时,结合紧密的不切分,其余切分。
例如:
前门/nl里屋/nl西太平洋/ns,上周/nt前天/nt上/nd赛季/n
[2]部分方位词+数词(量词)+时间词时,切分。
例如:
下/nd半/m年/nt
[3]方位词后置的,如果前面的成分不单用,则整体不切分。
例如:
境内/nl国内/nl关外/nl心目中/nl
如前面的成分单用,常用的(已收入词表)不切分,其余切分。
例如:
心里/nl空中/nl课前/nt门后/nl出发/v之前/nd球/n上/nd
[4]时间名词后接“…来(以来)”,要切分。
例如:
三/m年/q来/nd今年/nt以来/nd
“年、月”后跟“初、中、末、底”等类方位词时,如前面有数词,则切分,否则不切分。
例如:
年初/nt月底/nt年中/nt
1985/m年/nt初/nd三/m月/nt底/nd
[5]用于表概数或范围的方位结构,切分。
例如:
50/m左右/nd100/m人/n上下/nd
七一/nt前后/nd六十/m开外/nd九七/m年/nt以来/nd
1.4处所名词(nl)
表示处所、位置的词语。
[1]单音节名词或语素+单纯方位词构成的处所词,一般不切分。
如:
窗外/nl场内/nl网上/nl文中/nl
双音节或多音节名词+单纯方位词构成的处所短语,若前面的成分不单用,则整体形成处所词,否则,进行切分,分别标注。
如:
心目中/nl阳光/n下/nd运动场/n上/nd
[2]名词或语素+合成方位词构成的处所词,前面成分不可以单独使用的,不切分,其余切分。
[3]方位词+名词构成的处所词,一般不切分。
如:
西北麓、西郊
[4]“头、口、脚、边”等名词有时用法跟方位词差不多,可以和名词组成处所词。
例如:
门口儿/nl墙脚/nl床边儿/nl
1.5专有名词
1.5.1人名(nh),表示人的名称(姓名)。
人名进一步分为如下子类:
汉族或类汉族人名(nhh,nhf,nhg)
音译名或类音译名(nhy)
日本人名(nhr)
其它(nhw):
如绰号,笔名,尊称等。
[1]汉族或类汉族人名,姓和名之间不分,整体标注nhh,当姓和名单独出现时,分别标注nhf,nhg。
余秋雨/nhh欧阳修/nhh阮志雄/nhh金正日/nhh
姓名后的职务、职称或称呼要分开。
江/nhf主席/n小平/nhg同志/n胡/nhf总书记/n
张/nhf教授/n王/nhf部长/n陈/nhf老总/n
李/nhf大娘/n刘/nhf阿姨/n龙/nhf姑姑/n张/nhf姐/n
[2]音译名或类音译名(nhy)整体不切分。
外国人或少数民族的译名不予切分,标注为nhy。
布什/nhy普京/nhy才旦卓玛/nhy爱因斯坦/nhy艾米里亚/nhy
有些西方人的姓名中有小圆点,也不分开。
卡尔·马克思/nhyC.S.刘易斯/nhy
[3]日本人名(nhr)整体不切分。
岸信介/nhr本田宗一郎/nhr池田香代子/nhr
[4]其它(nhw)
a.对人的简称、尊称或姓氏加(类)后缀等,若为两个字,则合为一个切分单位,并标以nhw。
老张/nhw大李/nhw小郝/nhw郭老/nhw陈总/nhw张某/nhw戴妃/nhw
b.一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。
鲁迅/nhw茅盾/nhw巴金/nhw三毛/nhw琼瑶/nhw
c.昵称、绰号不切分。
例如:
阿扁/nhw二当家/nhw寒星雨/nhw老君山人/nhw牛魔王/nhw
1.5.2地名(ns),表示地理区域的名称。
[1]地名后有“省、市、县、区、乡、镇、村、旗、州、都、府、道”等单字的行政区划名称时,作为一个切分单位,标注为ns。
如:
山西省/ns平壤市/ns正定县/ns
[2]地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,将地名同行政区划名称用方括号括起来,并标以ns。
如:
[珠江/ns三角洲/n]ns[内蒙古/nsh自治区/n]ns[长江/ns流域/n]ns
[深圳/ns特区/n]ns[香港/ns特别/aq行政区/n]ns
[3]地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分,标注为ns。
如:
地中海/ns亚马逊河/ns喜马拉雅山/ns珠穆朗玛峰/ns
[4]地名后接的表示地形地貌的普通名词若有两个或两个以上汉字,一般应切开,同时要将地名同该普通名词用方括号括起来。
地名有缩略现象时,不再切分,并标以ns。
[台湾/ns海峡/n]ns[华北/ns平原/n]ns[帕米尔/ns高原/n]ns,
[南沙/ns群岛/n]ns[京东/ns大/aq峡谷/n]ns横断山脉ns
[5]地名后有表示自然区划的一个字的普通名词,“街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分,标注为ns。
如:
海珠区/ns淘金路/ns中关村/ns长安街/ns
[6]地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。
也要将地名同自然区划名词用方括号括起来,并标以ns。
[复兴门/n大街/n]ns[蒋/nhf家/n胡同/n]ns[陶然亭/ns公园/n]ns
[7]大小地名相连时,将整个地名用方括号括起来,并标以ns。
[福建省/ns漳州市/ns龙海县/ns榜山镇/ns洋西村/ns]ns
1.5.3族名(nn),表示民族或部落名称的专有名词。
如:
汉族/nn回族/nn藏族/nn朝鲜族/nn俄罗斯族/nn纳西族/nn土家族/nn
1.5.4团体机构名(ni),包括团体、机构、组织的专有名称。
[1]团体、机构、组织的专有名称若作为名词登录在分词库中,则直接标注为ni。
如,
联合国/ni中共中央/ni国务院/ni
[2]大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人名等专名,对于词表中没有收录的,按词语切分开来,暂不做整体标注。
中国/ns中文/n信息/n学会/n
澳大利亚/ns科学/n与/c工业/n研究/v组织/n
巴塞尔/ns大学/n
北京/ns图书馆/n
[3]团体、机构、组织名称的专指性是必要的、孤立的,“大学、学院、图书馆、植物园”等只标为n,不标为ni。
本次加工只考虑局部的上下文。
但是在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名,也标为ni。
联合国/ni国务院/ni外交部/ni财政部/ni教育部/ni国防部/ni
1.5.5其他专有名词(nz),包括以下类别。
[1]包含专有名称(或简称)的交通线,标以nz;短语型的,不整体考虑。
津浦路/nz石太线/nz京/j九/j铁路/n
[2]历史上重要事件不切分,标以nz。
卢沟桥事件/nz西安事变/nz五四运动/nz第二次世界大战/nz海湾战争/nz
[3]专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则应切分。
欧洲/ns语言/n法国/ns文学/n西方/n文化/n
贝多芬/nhy交响乐/n雷锋/nhh精神/n
美国/ns方式/n日本/ns料理/n宋朝/nt古董/n
[4]商标(包括专名及后接的“牌”、“型”等)是专指的,标以nz,但其后所接的商品仍标以普通名词n。
海棠牌/nz洗衣机/n牡丹III型/nz电视机/nTU-154/nz飞机/n
耐克/nz鞋/n
任何词语都可能成为商标名称,此时该词语标注为nz。
例:
联想/nz电脑/n鳄鱼/nz皮包/n张一元/nz茶庄/n
[5]以序号命名的名称一般不认为是专有名称。
2/m号/q国道/n十一/m届/q三中全会/j
[6]书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不作为专有名词。
由于这些名字往往较长,名字本身按常规处理。
《/wp宁波/ns日报/n》/wp《/wp鲁迅/nhw全集/n》/wp,
中华/n读书/v报/n杜甫/nhh诗选/n,
《/wp大众/n医学/n》/wp邓小平/nhh文选/n马关/nz条约/n
收入词表的书名、报刊名等专有名称,则不切分。
红楼梦/nz人民日报/nz儒林外史/nz
[7]当无法分辨专名的具体分类时,标以nz。
巴塞尔/nz俱乐部/n
[8]一般的命名活动常用引号表示,也不看作专有名称。
香港/ns举行/v“/wp庆/v回归/v公益/n千万/m行/v”/wp活动/n
2.动词(v)
表示动作、行为,人或动物的心理活动、生理状态,事物的存现、变化等,在句子中主要充当谓语。
2.1普通动词(v)
表示动作、行为,人或动物的心理活动、生理状态等,
2.l.1合成式
[1]并列关系。
双音节一般不切分,多音阶切分。
例如:
买卖/v公平/aq借贷/v双方/n
产/v供/v销/v一条龙/n不/d能/v管/v卡/v压/v
[2]动宾关系。
常用的双音节的组合,不予切分,但能扩展,不发生转义,切分。
例如:
开会/v跳舞/v吃饭/v念书/v
打/v人/n做/v饭/n开/v门/n交/v钱/n
三音节以上的,一般切分;如是整体意义不能分割的作如下规定:
A.组成成分不能分离的不切分。
例如:
滚雪球/v破天荒/v够意思/v
B.组成成分可以分离的,合时不切,标注v,分时分别标注各自的词性。
例如:
打交道/v——打/v了/u两/m回/q交道/n
[3]状中关系
A.[副十动]常用的不切分,其它的切分。
例如:
瞎写/v胡闹/v胡编/v不/d顾/v就/d去/v乱/aq批评/v净/d打架/v
B.[形十动]常用的不切分,其它的切分。
例如:
多/aq吃/v少/aq说/v好说/v、好买/v、好懂/v严禁/v
以下几个这类组合整体为形容词,不切分,标注为aq:
好看/aq难看/aq好吃/aq难吃/aq好喝/aq难喝/aq好听/aq
难听/aq好闻/aq难闻/aq
B.[动十动]双音节的一般不切分,标注为v。
三音节以上(含三音节)的一般切分,分别标注v。
例如:
飞跑/v纵身/v跳/v到/p河里/nl
[4]动补关系
A.[动十结(动、形、趋)]常用的不切分,其它的切分。
例如:
摘下/v达到/v看上/v变成/v打倒/v推翻/v闯过/v提高/v称为/v
写/v下去/v听/v清楚/aq走/v进去/v打扫/v干净/aq
B.[动十于]动词不单独使用的不切分,其余切分。
例如:
用/v于/p发表/v于/p出生/v于/p寄/v希望/v于/p
有待于/v近乎于/v有志于/v低于/v
2.1.2附加式
见后接成分部分
2.1.3重叠式
[1]AA式,不切分,标注为v:
坐坐/v走走/v
[2]A一A或ABAB式作如下切分与标注:
看/v一/m看/v研究/v研究/v
[2]AABB式,不切分,标注为v。
例如:
遮遮掩掩/v来来往往/v磨磨蹭蹭/v躲躲闪闪/v
[3]AAB式,一般不切分,标注为v。
例如:
招招手/v帮帮忙/v试试看/v念念看/v
2.1.4疑问式
[1]无论“V不(没)V”式还是“V…不(没)V”式,一律切分。
例如:
去/v不/d去/v看/v没/d看/v学/v汉语/n不/d学/v
[2]“是不是、有没有”分两种情况
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 973 当代 汉语 文本 语料库 分词 词性 标注 加工 规范