关于汉语的字和词的数量的宏观估计.docx
- 文档编号:9119560
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:36
- 大小:50.48KB
关于汉语的字和词的数量的宏观估计.docx
《关于汉语的字和词的数量的宏观估计.docx》由会员分享,可在线阅读,更多相关《关于汉语的字和词的数量的宏观估计.docx(36页珍藏版)》请在冰豆网上搜索。
关于汉语的字和词的数量的宏观估计
关于汉语的字和词的数量的宏观估计
关于汉语的字和词的数量的宏观估计
《现代汉语拉丁化拼音文字》词表
《现代汉语拉丁化拼音文字》=《汉语拼音方案》(稍许修订)+增补标调法+《汉语拼音正词法基本规则》+《现代汉语词典》(和其它规范词典)的词汇、词语一一定型+其他相关法律法规的基本原则。
《现代汉语拉丁化拼音文字》词表目前收集到的词汇约有十二万个。
《现代汉语拼音文字》的词汇达126657条
按汉字计,单字词约八千条,实际上多数单字本身并不是词。
另有注音单字约四百五十个,多音单字约六百五十个。
双字词约八万条。
三字词约两万条。
四字词约两万条。
五字及五字以上词语(短语、歇后语、谚语、惯用语)约两千五百条。
名词有待于扩充。
包括:
古今中外人名姓氏
世界各地地名(国名、企事业单位名等)
山脉,河流,湖泊等地理名词
天文名词
医药、疾病名词(新名词)
科学技术名词
文学艺术名词
体育名词
电子通讯名词
动物名词
植物名词
物件名称名词
缩略语
等等,总集应该达到40万以上。
词表词语分组及数量:
分部字数累 计 比例(%)
A 1117 1117 0.882
B 7014 8131 5.538
C 2446 10577 1.931
CH 5455 16032 4.307
D 7861 23893 6.207
E 673 24566 0.531
F 4371 28937 3.451
G 6378 35315 5.036
H 6500 41815 5.132
I
J 8239 50054 6.505
JU 1271 51325 1.003
K 3129 54454 2.470
L 6378 60832 5.036
LY 366 61198 0.289
M 4757 65955 3.756
N 2599 68554 2.052
NY 116 68670 0.092
O 97 68767 0.077
P 2920 71687 2.305
Q 3773 75460 2.979
QU 1124 76584 0.887
R 2103 78687 1.660
S 2615 81302 2.065
SH 7723 89025 6.098
T 5223 94248 4.124
U
V
W 4189 98440 3.308
X 6159 104599 4.863
XU 1387 105986 1.095
Y 7648 113634 6.038
YU 2465 116099 1.946
Z 3404 118503 2.688
ZH 7154 126657 5.648
合计 126657 100.000
其中“I、U、V”组用于特殊用途,不计数。
“I”组存放部分单音注音汉字;“U”组存放部分多音注音汉字;“V”组存放部分双字和三字注音汉字。
“JU、QU、XU”组包括“炯、穷、兄”等声音开头的词语。
“LY、NY”组包括“吕、女”等声音开头的词语。
按词长(每个词语汉字字数即音节)分
词 长 数 量 比 例(%)
01字词 7874 6.217
02字词 77935 61.532
03字词 18782 14.829
04字词 19655 15.518
05字词 1279
06字词 568
07字词 263
08字词 80
09字词 162
10字词 17
11字词 28
12字词 3
13字词 3
14字词 1
15字词 7 1.904
合计 126657 100.000
多字词语是由基本词汇组成的。
有的是文言文成分(成语)占主要地位,形成了固定搭配。
例如:
三K党
世界e家
59岁现象(五十九岁现象)
山穷水尽疑无路,柳暗花明又一村
踏破铁鞋无觅处,得来全不费功夫
先天下之忧而忧,后天下之乐而乐
有心栽花花不开,无心插柳柳成荫
怎么写,让实践来完成。
本人没有能力把所有辞书上的词语汇集起来。
让感兴趣的人加入吧。
如果有人赐给我一万条词语(电子版),我经过过滤,有一千条纳入了本词表,本人会赠给你十二万条词语。
本贴由值班版主王良辰于2007年8月18日17:
39:
56修改过
现代汉语拉丁化拼音文字WangkLiangchenkb=Wang2Liangchen27=WángLiángchén
多元字母标调法:
1声-v,w;2声-k,b;3声-f,t;4声-p,y;5声-x。
本贴由王良辰于2007年8月18日17:
28:
04在〖汉语拼音与输入法论坛-汉语拼音第一网站〗发表.
关于汉语的字和词的数量的宏观估计
字的方面,我们已根据统计资料作出过结论,现代汉语一般用字量的上限是5000个。
这个结论有来自多方面的统计支持,其中王小波《黄金时代》、王小波《白银时代》、王朔《动物凶猛》、王朔《过把瘾就死》、《檀香刑》、《中华人民共和国刑法》、《基督教圣经Bible》、姚国华《全球人文审思》共六个不同来源(不同作者)八部书累计字数160万,用字4935个(何况已包括一两百生僻字在内)。
另有,金庸《笑傲江湖》(上)(下)、老舍《四世同堂》三本书累计字数148万,用字4224个。
未能合并统计,但可以肯定地说,任何一个普通人,甚至任何一个文化人(文字专家除外),能把上面两组中的任一组基本读下来,识字量就足够了。
词的方面,我们也应该有一个粗略的估计,如果总以为前面有一座无限的、不可认知的大山,那样不利于对汉语的正确认识,不利于开展汉语教育工作。
这次王良辰先生公布了其在整理现代汉语拉丁化拼音文字词表中已收集到的词汇达126657条。
按词长(每个词语汉字字数即音节)分布:
词 长 数 量 比 例(%)
01字词 7874 6.217
02字词 77935 61.532
03字词 18782 14.829
04字词 19655 15.518
05字词 1279
06字词 568
07字词 263
08字词 80
09字词 162
10字词 17
11字词 28
12字词 3
13字词 3
14字词 1
15字词 7 1.904
合计 126657 100.000
从上表可见,词汇的数量主要集中在双字词上面,这是汉语的一个非常重要的特性,是汉语表意的最主要方式。
为了对汉语词汇作机器化的处理,我提出过一个班氏“词结”的新概念(见《班氏“词结”论》),“词结”是一种三字以上的、比词的结构松散、比词组的结构紧密的一个组合体,它是介于词和词组之间的一个层次。
“运动场、跑马场、涮羊肉、留级生、中医院”等这些东西,以前一般认为它们是“词”,但对语言文字的信息处理发展到现代,对语料的处理手段发展到机器处理的时候,再把这些看作是“词”,就会引来不少的麻烦和困惑。
班氏提出,在汉语中,两字的定义为词(有数量不多的一字词和极少量不可切分的三字四字词,可作为特例看待),三字四字的定义为词结,把它们看成是2+1、1+2、2+2、2+1+1等表现形式的词结。
这样,人工或机器判断词与非词就容易得多了,进行切分、汇集、统计、组合等操作处理也就简单快捷得多了。
1982年修订版的、32开本1243页的大部头《新华词典》“收单字一万二千个,收词约两万六千条,其中一般语词约占60%,社会科学和自然科学词语约占40%。
”
1983年第二版1994年修订的、32开本1722页的大部头《现代汉语词典》在前版“所收条目,包括字、词、词组、熟语、成语等,共计五万六千余条”的基础上,扩展到“六万余条”。
据以上种种,汉语的基本词汇大约就在五六万范围。
这个基本词汇包括语词和社会常见词汇(高频的、通用的),但不包括非常见的人名、地名、事件名、公司名、医药名、罕见动植物名、科技名词等专业术语,这些专业词汇应该算在社会知识、百科知识的范畴的。
如果进一步用班氏词结的标准来切分、处理,则汉语的基本词汇量大约在三万左右(参考上述两种词典可知)。
所以,摆在汉语教育者、修习者面前的基本字词量,大概就是4800个字、3万条词,这是有一系列统计资料支持的比较客观的估算。
对汉语的基本字词量作出正确的估算有什么意义呢?
长期以来,不管是外国人或华人中国人,都人云亦云地过分夸大了汉语学习的难度,甚至怀疑汉语的科学性。
统计资料客观地显示了,汉语使用的字、词量只需要远远低于英语的单词量就足够了。
我查了一下上述提到的两种词典,“猪肉、牛肉、羊肉”这类词条根本没有收入词典。
由于汉语有“字”(语素、词素)这个层次,汉语的大部分词汇都是语素组合词,词义是可以自释的,星期一至星期日、一月至十二月,这些也不需要作为“词”来特别记忆处理,甚至外科、内科、儿科、妇科等等都是“可有可无”的词,这是汉语的一个独特的性质,是英语等不可比拟的。
本贴由值班版主班门斧于2007年8月21日03:
33:
43修改过
本贴由班门斧于2007年8月21日02:
12:
03在〖汉语拼音与输入法论坛-汉语拼音第一网站〗发表.
按词长(每个词语汉字字数即音节)分
词 长 数 量 比 例(%)
01字词 7874 6.217
02字词 77935 61.532
03字词 18782 14.829
04字词 19655 15.518
05字词 1279
06字词 568
07字词 263
08字词 80
09字词 162
10字词 17
11字词 28
12字词 3
13字词 3
14字词 1
15字词 7 1.904
合计 126657 100.000
从这个统计看出,我们在打文章时需要输入单字的概率是6.217%
使用词语输入的概率是93.783%
由统计是得不出这个结论的,显然的数据与结论脱节。
现在都是这各情况,摆一大堆数据好像很认真专业似的,其实结论和数据根本不符。
完全是为了结论强摆数据,而不是根据数据得结论,也不是知道是故意的,还是不懂逻辑乱下结论。
最新一代中文输入法—汉字词语码编码技术
作者:
曾养志曾巍曾嵘
【摘要】本技术根据汉字起源于象形文字,经指事、象形、形声、会意、转注和假借而发展演化、始终具有“形声相益”的特性,以汉语言文字中能独立存在和运用的单字、双字、三字及四字以上词组、词语、短语、诗词和科技词语等作为一个编码单位,采用“反切相拼定音节,声母加形识末字”的方法,使汉语因同音字、词太多而存在的大量重码得以识别,从而实现词语、成语、诗词以及科技词汇的盲打;词语编码改变后缀,可快速切换对应英语等外语词汇;用单位简称编码改变前缀或后缀,可切换全称或对应外语名称。
本编码原理符合汉语言构词特性和发音逻辑思维,平均码长短,易学易用,得心应手,录入速度快。
除普通版本外,可按不同学科专业延伸专业词语编码。
本编码除适用于中文输入和信息处理及各类电子词典、辞书及汉英词典词条的检出外,也可开发为手写编码检出汉字词语,同时又是学生学习外语的强有力工具。
编码熟悉后,还可作为新闻记者、文秘人员和学生的速记码。
电子计算机问世以来,汉字的计算机输入技术一直是中文信息处理的关键。
大量常规信息——报纸刊物、书籍、科技文献、电子图书、日常公务、网络信息、商业贸易及工农业生产和民众生活等,无不涉及汉字的电子计算机处理。
因此,汉字的编码成了中国汉语言文字工作者及计算机制造厂家重要的研究课题。
八十年代初,王永明率先推出了“五笔字型输入法”,随后又有全拼、双拼、自然码、智能拼音等编码问世。
迄今,已专利的汉字输入法达数百种。
五笔字型、拼音码等较优秀的编码已得到广泛推广,为中国的计算机汉字输入和信息处理作出了重要贡献。
然而,目前已推广应用的汉字编码技术,多数仍停留在汉字特有的“单字”处理上,还没有一种完善的、真正体现汉语特点并以词语为主的输入技术。
对此,国家语委会主任许嘉璐曾指出:
“目前,中文信息处理虽然已实现了‘字处理’,但这只是信息处理的初级阶段。
要实现计算机中文信息的高速处理,….就必须超越‘字处理’阶段,对(汉语)语言中的词、短语和句子以及语言的应用规律进行深入的研究,同时,在此基础上制定电子计算机所用的语言和文字规范与标准”(《科技日报》1997年)。
微软公司中国研究院院长李开福在向比尔.盖茨作述职报告时指出:
“.....我们在寻求更好的计算机中文输入方面所做的工作。
”他接着“着重介绍了中文输入方面的研究,谈到了不同的中文输入方法。
我发现,比尔早已明白了中文输入的困难所在以及拼音和五笔等输入方法的利弊。
我指出,如果中文输入的速度提高一倍,在每两小时的工作时间里,我们就可以帮助中国的计算机用户节省10亿个小时”。
以上指出了汉字输入法的现状及希望通过研究所要达到的目的。
目前的汉字编码不外如下系统,即:
区位码和电报码,由于不易记忆又只能录入单字,难以推广;形码,以五笔字型为代表,这是以构成汉字字型结构的笔划及所谓“字根”进行汉字拆分,再与键位和“区”给定特定的码号与相应的键名对应。
经过培训的专业人员具有较快的录入速度。
五笔字型的发明在特定历史时期功不可没,其应用和普及程度也较广。
然而,由于其编码着眼点为汉字的单字,不可能真正解决词语的编码。
拼音码有全拼、双拼和智能拼音等。
无论那种拼音码,其优点是不必拆分组合,拼读符合人们的听想思维习惯,编码反应直接,懂得拼音规则和韵母组合的代码键,上机即会,不用培训,不会忘记。
然而,因汉语的发音仅限于418个音节,汉字字数太多,每个音节必然有大量同音字,当按下任一拼音组合的键位后,屏幕提示行即出现大量重码。
尤其那些将单字、双字、三字乃至多字词组和短语都一律规定为4码者,当键入某一个编码时,大量的单字、双字词、三字词乃至多字词或短语就同时出现,录入者得反复地去“翻页”,有时须在多次“翻页”中的数百个词语里去寻找所需的那个唯一词组或词语。
按《汉语拼音方案》设置的“全拼”码,韵母组合和词组拼写很多相混,如“xian”为“先、线、现、”等48个单字,而“西安、西岸、系按”也是同样的拼法。
“xianshi”不知是“西安市”还是“现实、显示、现时、县市”。
键入“ji”,出来“几、及、既、”等110多个单字,加一个“e”,则是“接、节、”等40多个单字,而录入者需要的是“饥饿”或“嫉恶如仇”等词组,用“jie”就拼不下去了。
这种情形涉及整个汉语拼音音节中的很多部分。
其次,汉语毕竟不是拼音文字,中国从小学学习汉语拼音,但很多大、中学生都不能掌握规范的拼音,用起来错误仍然很多。
目前已推广的许多编码,由于存在大量重码,需要不断“翻页”,或因编码不科学、难记忆而影响录入速度,尤其是只着眼于单字的编码技术,是不能真正解决汉字的录入问题的。
形码是按汉字结构的基本笔画或繁杂部首进行拆分组合,拼音码虽然抓住了发声这一重要特征,然而,发声是任何一种语言都具有的特性。
那么,汉字的特性是什么呢?
中国的汉字,从新石器晚期的刻画符号开始,历经3000余年发展到殷商时期的象形文字,在象形文字基础上发展演化而成为系统的汉字。
汉字发展演化的方法,就是所谓“六书”。
“六书”者,即象形、指事、会意、形声、假借和转注。
“象形者,画成其物,随体诘诎”。
“指事者,视而可识,查而可见”。
“会意者,比类合谊,以见指撝”。
“假借者,本无其字,依声托事”。
“转注者,建类一首,同意相受”(许慎:
《说文解字》序)。
及至现代,汉字虽然几经改革和简化,结构和数量发生了很大变化,但基本上仍保留上述特性。
许慎在《说文解字》叙中说:
“仓颉之初作书,盖依类象形,故谓之文。
其后形声相益,即谓之字”。
汉字虽非仓颉一人所能发明,但这段话却指明了汉字的形成是“依类象形”的。
“形声相益”,就是汉字不仅具有“声”(发音)的特性,而且具有“形”的特性。
汉语的发音为418个音节。
所有的汉字,无论是8000余单字的新华字典,还是4万余的《康熙字典》,其发音都在这些音节范围。
这就是汉字同音字-词多的根本所在。
如此多的同音单字,如何区别每个字的意义呢?
这就是依靠每个单字构成的“形”。
这个“形”,一是由最早的原初字构成,其次是在原初字的基础上经指事、会意、形声等六书所衍生确立的偏旁部首。
例如“丁”字是象形字,而现代语言中“ding”这一音节共有22个单字(《新华字典》),其中以“丁”字为发音基础加不同的偏旁部首,就构成了不同意义但仍然发“ding”音的单字就有18个,以“定”字加偏旁部首衍生的有5个。
这些都发“ding”音的字如何区分呢?
这就是汉字发明者赋予每个字的“形”——部首来加以识别。
丁加口旁为叮咬的叮,丁加言旁为预订的订,丁加目旁为用眼睛盯上,丁加金属为铁钉的钉,丁加页(头)为顶,丁加田为町,丁加玉(王)为玉佩的响声玎,丁加病头为一种疮,丁加耳旁为耳垢的耵,丁加酉为酒泡的药剂酊,丁加水是一种水剂汀,丁加革为补鞋底的靪,丁加食旁是一种陈设的食品饤。
部首一加,发音不变,意义却清楚明白,一目了然。
以“登”(deng)字为基本字形加不同部首衍生出12个发“deng”音的单字,占这个音节的80%。
“fang”这一音节共收单字19个,都是由“方”这一原初字加不同部首组合而成,这种情形在400多个音节中随处可见;另一种组合:
则是由一个原初象形字作偏旁部首,再加不同的字组成,其发音随后面所加的那个字的读音而发,从而又构成了大量具有同类性质而意义不同的字的系列。
如“牛”字是原初象形字,以“牛”作部首衍生的字,《说文解字》49字,《新华字典》收“牛”部为46字,其中许多字义已发生了变化。
依此类推,凡人之属皆从人(亻、彳),凡草之属皆从艹,凡木之属皆从木等等,这就是汉字以部首分类的依据。
所以,汉字只用一种特性如发音或“形”都无法反映单字和词组的特性。
可以说,“形声相益”是汉字演化和扩展的主要方法,电子计算机时代的汉字编码也应以此作为基本的识别方法和原则。
现代汉语中,描述各类事物并以文字作为信息载体传递的文章,是由词组和短语构成的。
实际上,国家标准局公布的6763个单字中,有1000余个是不能单用的,只是组词的单元,如“琵琶、枇杷、菝葜、荸荠”等。
有些虽可单用,但组词后就很少单用了,这类单字也有1000多。
因此,老是花功夫去研究单字是没有必要的。
随机统计了有代表性的文稿,双字词占41.74%(35.8—46.9%),三字词占20.17%,四字词占21.76%,五字以上及短语占7.08%。
单字仅占9.25%,包括虚词“的、地、和、与、及”等。
此外就是科技论文和著作,这类文章除普通词汇外,有大量专业技术词汇和术语。
随机统计了科技论著中的12397个字词,有双字词4636个,占总字数的37.39%,比普通文章略低。
三字词2934个,占23.67%,比普通文章多。
四字词1958个,占16.04%,大大高于普通文章中的5.25%。
五字至八字词或短语749个,占6.04%,普通文章中仅占1.51%。
这表明,科技文章中多字词语的使用频率比普通文章高,因科技词语本身就是以多字词为主的。
国家编订的《汉语主题词表》(“自然科学”版),其中“B”这一声母16个音节共收入主题词3456个,其中双字词505个,三字词822个,四字词1017个,五字词567个,六字词290个,七字以上254个,单字却没有。
科技文章中普通词汇与科技词汇之比为4624:
6249=1:
1.35。
这表明,对于科技工作者,既使普通汉语词语的编码问题完全解决了,但在写作科技文章时,仍有一半以上的专业技术词汇须一个单字一个单字地录入。
此外,各类电子词典,其汉字词语和汉英词典词条的检出,都只能一个个单字录入在显示屏上组合成词语后才能检出和汉英翻译。
可见,汉字的编码如果忽视了科学技术词语的编制和研究,仍然是一种不完全的编码技术。
不难看出,迄今推广应用的各种输入法,还没有真正解决汉语以词语为主的编码,更谈不上科学技术词语的编码了。
本技术根据汉字“形声相益”的特性和现代汉语词语的应用范围,以汉语中双字词、三字、四字以上词语、短语及固定的简单句作一个编码单位,采用“反切相拼定音节,声母加形识末字”的方法。
“反切拼音”是我国宋朝以后用于汉字注音的方法,为一字之声母与另一字之韵母快速相拼,优点是简洁明快、节省码长,与“双拼”相似。
“声母加形识末字”:
双字词、三字词第一个字由“反切相拼”定其所在之音节,末字用其声母加部首识别。
4字以上则只需反切相拼定音节,以后各字用声母组合。
短语或中间有停顿的固定短句在停顿处用后缀省略。
由于许多单字具有词的性质或有时可能单独用到,仍将单字编码列出。
文章中最常用到的虚词、连词、形容词和付词用一键输入。
编码方案如下:
(1)汉字偏旁部首的调整和“0”部首的设置:
本发明采用“反切相拼定音节,声母加形识末字”的方法,因为末字需要用部首识别,而传统习用的偏旁部首多者为213部,少者也有188部。
其中50余部不规范,不仅识别困难,且计算机的键位也难以合理安排,所以对传统部首进行了调整改进。
即将各类字典中列为“难检字”表中的500余单字绝大部分划为“零”部首,用键名“o”键代表,有些则归入相应的规范部首。
(2)单字编码:
词语码录入已很少用到单字了。
但一些具有词汇性质的名词、动词及姓氏、名号和古汉语等涉及的单字仍不少,因此仍将其编码列出。
单字用3码,编码规则是:
“反切相拼定音节,重码部首来识别”,例如“中”字,汉语拼音为“zhong”,“双拼”为“vs”,当键入“zhong”或“vs”时,屏幕提示行出现“中、重、种、钟、肿、众、终、盅、忠、衷、踵、舯、螽、冢、塚”等同音字。
本发明规则:
反切相拼定音节为“vs”,若需其中某字时,只需在“vs”后面加该字的部首即可检出。
“中”字部首不规范加“o”为“vso”,“重”字横底加“/”为“vs/”,“种”字禾旁加“h”为“vsh”,“钟”字金旁加“j”为“vsj”,“肿”字月旁加“y”为“vsy”,“众”字人旁加“r”为“vsr”,“终”字丝旁加“s”为“vss”,“盅”字皿底加“m”为“vsm”,“忠”字心底加“x”为“vsx”,“衷”字点上加“'”为“vs'”,“踵”字足旁加“z”为“vsz”,“舯”字舟旁加“v”为“vsv”,“螽”字虫底加“i”为“vsi”,“冢”字豕底加“u”为“vsu”,“塚”字提土加“t”为“vst”等。
这样,上述15个单字的重码就可用各字所具有的部首区分而没有重码。
(3)双字词的编码:
双字词用4码,编码规则是:
“反切相拼定音节,声母加形识末字”。
反切相拼定准第一个字的音节,第二字用声母加部首识别。
如“实际”一词,先键入“ui”这一音节,接着键入“际”字的声母“j”,“际”字的部首为“耳”旁,“耳”的声母发音为“e”,所以加“e”为“uije”。
与“实际”发音相同者还有:
“世纪”的“纪”为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 汉语 数量 宏观 估计