ICTPOS汉语词性标记集文档格式.docx
- 文档编号:19753414
- 上传时间:2023-01-09
- 格式:DOCX
- 页数:7
- 大小:16.88KB
ICTPOS汉语词性标记集文档格式.docx
《ICTPOS汉语词性标记集文档格式.docx》由会员分享,可在线阅读,更多相关《ICTPOS汉语词性标记集文档格式.docx(7页珍藏版)》请在冰豆网上搜索。
6.
形容词(1个一类,4个二类)
7.
区别词(1个一类,2个二类)
8.
状态词(1个一类)
9.
代词(1个一类,4个二类,6个三类)
10.
数词(1个一类,1个二类)
4
11.
量词(1个一类,2个二类)
12.
副词(1个一类)
13.
介词(1个一类,2个二类)
14.
连词(1个一类,1个二类)
15.
助词(1个一类,15个二类)
16.
叹词(1个一类)
17.
语气词(1个一类)
5
18.
拟声词(1个一类)
19.
前缀(1个一类)
20.
后缀(1个一类)
21.
字符串(1个一类,2个二类)
22.
标点符号(1个一类,16个二类)
1.说明
计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。
本标记集主要参考了以下词性标记集:
2.北大《人民日报》语料库词性标记集;
3.北大2002新版词性标记集(草稿);
4.清华大学汉语树库词性标记集;
5.教育部语用所词性标记集(国家推荐标准草案2002版);
6.美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;
由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本
词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
本标记集在制定过程中主要考虑了以下几方面的因素:
1.有助于提高汉语词法分析器的切分和标注正确率;
2.有助于提高汉语句法分析器的正确率;
3.有助于汉英机器翻译系统进行翻译;
4.易于从北大《人民日报》语料库词性标记集进行转换;
5.对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。
基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。
例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。
因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。
在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。
又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。
对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。
另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。
1.名词
(1个一类,7个二类,5个三类)
名词分为以下子类:
n名词
nr人名
nr1汉语姓氏
nr2汉语名字
nrj日语人名
nrf音译人名
ns地名
nsf音译地名
nt机构团体名
nz其它专名
nl名词性惯用语
ng名词性语素
2.时间词(1个一类,1个二类)
t时间词
tg时间词性语素
3.处所词(1个一类)
s处所词
4.方位词(1个一类)
f方位词
5.动词(1个一类,9个二类)
v动词
vd副动词
vn名动词
vshi动词“是”
vyou动词“有”
vf趋向动词
vx形式动词
vi不及物动词(内动词)
vl动词性惯用语
vg动词性语素
6.形容词(1个一类,4个二类)
a形容词
ad副形词
an名形词
ag形容词性语素
al形容词性惯用语
7.区别词(1个一类,2个二类)
b区别词
bl区别词性惯用语
8.状态词(1个一类)
z状态词
9.代词(1个一类,4个二类,6个三类)
r代词
rr人称代词
rz指示代词
rzt时间指示代词
rzs处所指示代词
rzv谓词性指示代词
ry疑问代词
ryt时间疑问代词
rys处所疑问代词
ryv谓词性疑问代词
rg代词性语素
10.数词(1个一类,1个二类)
m数词
mq数量词
11.量词(1个一类,2个二类)
q量词
qv动量词
qt时量词
12.副词(1个一类)
d副词
13.介词(1个一类,2个二类)
p介词
pba介词“把”
pbei介词“被”
14.连词(1个一类,1个二类)
c连词
cc并列连词
15.助词(1个一类,15个二类)
u助词
uzhe着
ule了喽
uguo过
ude1的底
ude2地
ude3得
usuo所
udeng等等等云云
uyy一样一般似的般
udh的话
uls来讲来说而言说来
uzhi之
ulian连(“连小学生都会”)
16.叹词(1个一类)
e叹词
17.语气词(1个一类)
y语气词(deleteyg)
18.拟声词(1个一类)
o拟声词
19.前缀(1个一类)
h前缀
20.后缀(1个一类)
k后缀
21.字符串(1个一类,2个二类)
x字符串
xx非语素字
xu网址URL
22.标点符号(1个一类,16个二类)
w标点符号
wkz左括号,全角:
(〔
[
{
《【
〖〈
半角:
([{<
wky右括号,全角:
)〕
]}》
】〗〉半角:
)]{>
wyz左引号,全角:
“‘『
wyy右引号,全角:
”’』
wj句号,全角:
。
ww问号,全角:
?
?
wt叹号,全角:
!
!
wd逗号,全角:
,半角:
wf分号,全角:
;
;
wn顿号,全角:
、
wm冒号,全角:
:
:
ws省略号,全角:
……
…
wp破折号,全角:
——
--
——-
---
----
wb百分号千分号,全角:
%‰
%
wh单位符号,全角:
¥$£
°
℃
$
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ICTPOS 汉语 词性 标记