计算机中文输入标准.docx
- 文档编号:23900131
- 上传时间:2023-05-22
- 格式:DOCX
- 页数:15
- 大小:49.13KB
计算机中文输入标准.docx
《计算机中文输入标准.docx》由会员分享,可在线阅读,更多相关《计算机中文输入标准.docx(15页珍藏版)》请在冰豆网上搜索。
计算机中文输入标准
计算机中文输入标准
李铁
中国《国家安全信息报告》中指出,计算机硬件、通信设备制造业的基础集成电路芯片,主要依赖进口。
系统软件、支撑软件基本上是国外产品。
目前构成中国信息基础设施的网络、硬件、软件等产品,几乎完全建立在外国核心信息技术之上。
大力发展民族软件,发展自己的拥有自主版权的系统级、核心层软件技术已成为我国IT业的方向。
一、《中文规范输入法》系统软件研发历程:
1998年,李铁创建汉字笔画矢量信息理论和笔画符号键盘布局理论,研发成功中文字词编码数据库。
2000年4月14日,李铁申请发明专利“笔画直接输入的汉字输入法及其键盘”。
2001年6月,研发成功实验版,配置GB2312勺6763字。
2002年3月,研发成功V1.0标准版,首次实现中文输入字形显示,即“中文可视化符
号化直接输入系统”,配置GBK勺21003字,批量供应盒装光盘软件。
2002年8月,升级成功V2.0标准版,批量供应盒装光盘软件。
2003年6月,升级成功V3.0标准版,批量供应盒装光盘软件。
2003年8月,研发成功政府企业版和100万条专业词汇数据库;研发成功繁体中文版。
2003年11月,升级成功发明纪念版,批量供应盒装光盘软件。
2005年6月,升级成功2005标准版和2005专业版,批量供应盒装光盘软件。
2008年9月,升级成功V8.0版,配置GB18030-2005的70244字。
2009年9月,升级成功V9.0版,适用于Win7/XP/Vista简体中文操作系统。
2010年12月,升级成功V10.0标准版和V10.0专业版。
二、标准意义:
《中文规范输入法》系统软件是原创性发明,系自主开发勺“中文符号化可视化直接输入系统”,彻底解决了中文输入计算机勺世界性难题,对于研发中文计算机、汉语程序设计语言和中文操作系统,在输入单元和输入技术方面取得关键性突破,奠定首要勺技术基础,创建了计算机中文输入标准,中国IT产业从此具备了核心竞争力,是中文信息处理领域勺划时代革命,被誉为中国勺第六大发明!
三、《中文规范输入法》系统软件研发背景:
汉字不是拼音文字,也不是象形文字,是一种具有独特魅力、唯一的连续使用了几千年而且还在使用中的文字。
自古以来,用汉字书写的典籍浩如烟海,负载着灿烂的中华文化。
自二十世纪七十年代末计算机进入中国,古老的汉字和现代信息技术发生了激烈的碰撞,中国人开始了计算机汉字输入研究的万码奔腾,,
目前,中国上百万所计算机学校、电脑培训班所讲的第一课就是中文输入,相关的系列产品、教育培训和服务等,形成了巨大的中文信息处理的产业和市场。
根据IT市场权威研究机构CCID的统计和预测,2001年底,中国大陆计算机的总保有量为3000万台,普及率只有1%,市场潜力巨大,1993年至2000年,中国大陆电脑年平均增长率在50%以上,2001年后以30%速度增长。
至2008年底,中国大陆计算机的总保有量已达到1亿台,手机的总保有量已达到7亿台,中文信息处理专家预言中文输入领域未来十年的产值将达到500亿元。
但是,中文输入已成为中国人利用计算机进行信息处理的瓶颈,中文输入技术落后局面仍然没有根本改变,中文仍然不能如拼音文字直接输入,中文仍然没有输入标准!
严重影响计算机技术在中国的发展,严重制约全社会办公效率提高和社会生产力发展,原因如下:
1、汉字复杂特点。
汉字是由音、形、义三要素构成的,在演变和发展过程中形成字数多、笔画多、同音字多和字形复杂四大特点。
2、发明计算机时没有考虑汉字该怎样输入。
计算机是西方人发明的,由英文打字机键盘演化而来的通用键盘上,设置了26个英文字母输入键位,英文等拼音文字可直接输入,例如:
敲击T、HE键,键入“THE一词。
3、汉字输入理论误入“音”、“形”轮回的歧途。
4、汉字输入设计陷入“重高速度、重低重码、重编码规则”的误区。
5、汉字输入方案的设计层次与软件功能辅助相分离。
6、相关配套的字、词等语言文字信息的基础研究滞后。
7、相关配套的语言文字信息的国家标准及规范发布滞后。
8、九十年代前计算机软硬件的技术功能水平形成了一定的制约。
中文输入研究历经三十多年,在通用键盘输入方案上形成拼音、部件和笔画三大流派,
根据拼音和部件输入汉字,已被历史实践证明不能解决根本问题。
中文输入法虽然有很多,但是都没有解决其根本缺陷,都没有同时达到规范、易学、通用和高效的标准,都属于中文输入的辅助工具。
常用汉字有6763个,国家标准GB18030-2005有70244个汉字,汉字部件有200多个,笔画有40多个,如何在通用键盘的26个字母键位上输入汉字?
中文能否像拼音文字一样直接输入?
汉字的“字母”即笔画怎样确定?
汉字笔画的输入顺序又如何确定?
,这些理论技术上的空白和难题,使得根据笔画笔顺输入汉字的研究在历史上被列为禁区和冷门。
统计表明,2000年前的2000多个中文输入专利方案中,只有6个方案对汉字笔画作了简单研究,其思路将汉字平均笔画数定义为“质”的标准。
本文认为:
笔画是构成汉字的最基本单位,中文输入理论研究和技术开发应该立足于笔画,才能取得根本性突破,关键是将汉字的平均笔画数定义为“量”的标准,是可以通过技术方法来降低的数量。
英文平均每个单词有4.5个字母,中文平均每个汉字有10.7个笔画,很明显,根据笔画对汉字编码输入,将比英文慢2.4倍。
怎样降低汉字平均键入笔数?
使之等同或小于英文,提高中文输入速度,极为关键!
当人类迎来21世纪曙光时,中文输入研究获得了正本清源的机遇:
1997年4月7日,《现代汉语通用字笔顺规范》实施。
1998年,列入国家863计划、火炬计划的中文信息处理领域的基础工程《华天超大多级结构曲线字库》研制成功。
2000年1月1日,《GB13000.1字符集汉字笔顺规范》实施。
2000年4月14日,李铁申请发明专利《笔画直接输入的汉字输入法及其键盘》。
2002年3月31日,《GB13000.1字符集汉字折笔规范》实施。
2003年1月1日,《GB18030-2000信息交换用汉字编码字符集》实施。
2003年1月8日,李铁的发明专利正式授权公告,,
《中文规范输入法》系统软件即在上述背景下研发成功的,该软件可以按汉字笔画笔顺,直接输入所有的中文字词句,彻底解决了全世界所有计算机用户的中文输入障碍,是替代性输入法,将成为计算机中文输入的事实标准。
四、谨慎选择输入法:
通过分析中文输入法的分类及其发展过程,可迅速掌握中文输入市场特点,见下表:
中文输入法分类和发展历程
输入原理方法
专利申请
通用键盘
笔画输入
26个笔画键
可视符号直接
2000414
9个笔画键
简单笔画
有效
5个笔画键
基本笔画
无
手写输入
点阵识别
有效
语音系统
语音识别
有效
通用键盘
音形输入
声母部件
有效
部件输入
部件分布
有效
拼音输入
拼音字母
无
部件键盘
部件分布
有效
汉字键盘
整字分布
无
二十世纪七十年代末,计算机进入中国,研究人员仿照中文打字机,一个整字对应1个
键位,这种汉字键盘有上万个汉字键位,庞大且笨重。
二十世纪八十年代初期,研究人员设计了多种部件键盘,类似小学生写字本中的田字框和米字格,键盘中分布有200多个汉字部件,输入效果很不理想,而且,不具备通用性,不能产业化,不能进入市场。
目前,市场上中文输入法主要有以下几类:
(一)拼音输入:
汉语拼音方案由23个声母和36个韵母组成:
声母:
b、p、mf、d、t、n、I、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w;韵母:
a、o、e、ai、ei、ao、ou、an、en、ang、eng、ong、i、ia、ie、iao、iou、ian、
in、iang、ing、iong、u、ua、uo、uai、uei、uan、uen、uang、ueng>u>ue>uan、un、er。
汉语拼音通过声母和韵母的急速拼读发出汉字的读音,例如:
“范”字的拼音是fan,即通过f(佛八an(安)二个音节急速拼读发出“范”字读音。
拼音输入是将每个汉字按其拼音字母进行编码,制成拼音编码数据库,通过程序功能,用户键入拼音字母,将对应显示的汉字选择输入计算机。
例如:
键入拼音fan,将对应显示的“反、饭、范”等字选择输入。
因此,拼音输入不能直接输入字音,只能间接的输入拼音,存在以下根本缺陷:
1、不认识的字不能拼音输入。
绝大多数人只认识3000多个常用字,而国家标准GB18030有70244个字,有6万多个字不认识,不能拼音输入。
2、有的字知道意义,但不知道读音,不能拼读,不能直接输入。
3、读不准音的字,难以输入,特别是用方言发音的中国大部分地区。
4、同音字多,键选率高,输入效率低。
拼音输入的音节最多只有417个,而常用字有6763个,平均1个音节对应16个同音字,用户需要进行选择输入,严重影响了输入效率。
5、拼音不能直接输入汉字读音,只能间接输入拼音,长时间使用时,大脑很容易疲劳。
由于拼音输入存在上述根本缺陷,导致了全社会中文输入的低效率,各行各业还是需要
依赖少数职业打字员,采用部件输入法,输入大量报告、合同、资料和文稿等,形成了中国特有的中文职业打字行业。
请注意:
汉语拼音和拼音文字是不同的概念,英文是拼音文字,输入计算机时,是按字母的形状输入的,而不是按字母或单词的音标输入的,例如:
输入字母W按照W的形状,
键击W键,即可直接输入W无须按照W的音标[dabulju:
]进行输入,英文单词也无须按照音标进行输入。
用户只需掌握26个字母和从左至右排列顺序,即可直接输入所有的60多万个英文单词,用户不需认识所有单词。
但是,全世界没有一个人能直接读出成千上万个汉字,拼音输入无法保证大多数人100%的输入几千个汉字。
虽然,汉语拼音的教学推广已经有半个多世纪,付出了巨大的社会成本,用户读小学时用了5-6年学习汉语拼音,但是,使用了30多年的拼音输入法还是不能实用!
从中文信息处理角度分析,拼音输入不是输入法,只是中文输入的辅助工具。
更为严重是,由于绝大多数的中小学生使用电脑打字时,是按照汉语拼音间接拼入汉字
的,已经导致电脑失写症、网络语言、火星文等污染和羞辱中文的社会现象,例如:
GG哥哥),JJ(姐姐),偶(我),稀饭(喜欢),酱紫(这样子),PMP拍马屁),PLMM漂亮妹妹),BT(变态),1切斗4幻j(一切都是幻觉),7456(气死我了)等。
一些年轻人的中文水平开始向无知程度倒退,一部分小学生成了“错字大王”,很多小学毕业生不能掌握《语文课程标准》规定的3000个常用汉字,中文错别字使用率逐年递增,中文被冷落以及运用中的粗糙化已是不争事实,中文的“纯度”日益受到前所未有的侵袭,捍卫中文刻不容缓!
(二)部件输入:
部件是汉字的偏旁部首(字根),常用部件有200多个。
部件输入是将汉字200多个部件对应分布在通用键盘中26个英文字母键位上,将每个汉字按其部件构成进行字母编码,制成部件编码数据库,通过程序功能,用户键入字母编码将对应的汉字输入计算机。
1985年,王永民申报发明专利“五笔字型输入法”,中国大陆职业打字员基本上选用该输入法,其部件键位基本上如下图:
一金力一
人1
W
一月乡豕
白手产f
%"
J/-4文夂
T
rtY
立1rlr-
*#水
■止
1
火•处
0
之JL1L"P?
I匚
七飞艾A
木丁
S
大犬古石三干产县厂
土士干二申+m寸
F
王土
—*五
G
目且
1卜卜L上止上广
H
日■否早Ilyif虫j
□
III川K
田甲口
四III1Q33JKL车力
L
Z
a弓
x
又KW»巴马
C
女刀九
甘
子孑了弋也耳B"Dnu
B
已巳己n乙尸严
N
山由贝
门m■几M
例如:
,对应的字母编码为A、I、B,键入A、I、B,再
键入交叉识别码,可将显示的“范”字输入计算机。
根据汉字部件形状的信息特征输入中文,虽然解决了拼音输入缺陷,但是,部件输入仍然存在以下根本缺陷:
1、记不住部件键位,不能输入。
150-200多个部件的键位分布很难形成长期记忆,短期内绝大多数人即使死记硬背记住了,也会经常忘记。
2、取码规则复杂,部件拆分歧义性,绝大多数人很难掌握。
部件输入研究忽视了两个基本常识:
1、部件的分布率太低。
常用汉字有6763个,部件三点水“汀的字最多,有353个,所占的比例仅5%因此,部件输入法都要选取150-200多个部件,才能保证6763个字输入,造成难于记忆的痼疾,违背科学原理。
2、欲速则不达。
输入部件“汀只需按“汀1键,相当于用笔画输入“汀所按的“点点提”3键,从
表面上看,按部件取码只需1-4码就能输入一个字,既简单又快捷,但是,对于6763个常用汉字,会发生本质性和系统性变化:
汉字是平面构造的方块字,每个字构造都互不同,拆分部件时,就会产生可以这样拆也可以那样拆的歧义性,就需制定复杂的拆分部件取码规则,
这样,构造复杂的汉字被拆分得更为复杂了,更难于掌握了,欲速则不达的基本常识被忽视了几代人的岁月。
因此,部件输入法没有解决绝大多数人中文输入障碍,只适合极少数职业打字员,不能推广普及。
(三)音形输入:
进入二十世纪九十年代,中国开始大规模普及计算机,中文输入成为社会广大用户的日常工作,但是,拼音输入和部件输入不能满足用户需求,日益庞大的用户市场渴望上帝赐予一个“美妙输入法”。
从此,市场上每隔半年,就会推出某个音形或形音输入法,其思路和方案是:
利用拼音减少部件输入的记忆量,利用部件降低拼音输入的高键选率,以便提高易学性和输入效率。
但是,用户使用时既要知道每个字的声母,要知道读音,又要记忆大量部件,还要拆分汉字,音形混杂,同样存在拼音和部件输入的根本缺陷,操作难度太大,很难推广普及。
例如:
《新方码》选取汉字200多个部件,以部件名称的声母作为取码单位,对应通用键盘中英文字母键位取码输入,其部件键位如下图:
其青犬
王虫.攵
二耳
日曰彳
田扌
又用羊
雨聿
月
片皮
欠气玄
文瓦
儿R
人入彳
±
尢玄言
弋音
疋纟
支Q
帀W
卩E
R
T
页丫酉
鱼U
1
0
P
孑爪止
小3C
厂臣采
山
白鼻风
女鸟牛
母门m
L乙走
穴屮夕
寸辰卄
A彫卜
米毛矛
舟Z竹
辛X血
卄(:
虫
.V
比B疔
N
马M目
输入“泪”字时,“氵”的声母是d,对应的字母编码为D,“目”的声母是m对应的字母编码为M键入DM将显示的“泪”字输入。
该输入法不仅需要记忆200多个部件的形状,而且还需记忆200多个部件的名称、声母和键位分布,还要掌握复杂的部件拆分取码规则。
用户输入汉字时,要在每个字中间拆出部件,还不能直接输入部件,而是输入几个部件的声母,严重干扰了用户创作时大脑中的汉字读音,大脑很容易疲劳,严重影响了输入效率。
目前,该输入法已经被市场淘汰。
《二笔输入法》将汉字的笔画分为横一、竖丨、撇丿、点、、折「,二个笔画互相组合
分布到一个键位,合计30个键位,其笔画键位如下图:
输入“席”字时,第一码取第1笔点、和第2笔横一的组合码丫,第二码取第3笔撇丿和第4笔横一的组合码Q,第三码取第5笔竖丨和第6笔竖丨的组合码S,第四码取倒数第1笔竖丨和倒数第2笔折「的组合码G,将显示的“席”字输入。
该输入法的全形输入方式要在汉字中间分别拆出二个笔画组合,要到相应键位取码,要分清上下型、左右型的字形结构,还要进行补码,难度系数太高,肉眼和大脑根本不能操作,其中4个编码分布在标点键位上,造成4个常用标点不能直接输入,不符合通用键盘的使用方式。
目前,该输入法已经被市场淘汰。
《万能码》将拼音输入、部件输入和笔画输入等整合成一个输入法,不需切换即可使用多种输入方式。
如:
输入“苹果”,可以键入拼音编码pingguo,也可用部件编码输入,还可用5个笔画编码输入,该输入法后来以五笔字型输入为主,发展为“万能五笔”,演化为职业打字输入法。
该输入法试图提供多元输入方式,最大限度满足不同类型用户的不同输入需求。
但是,该输入法并没有解决其中的任一输入方式的根本缺陷,而且,其根本缺陷随之而来:
单个用户一般是选定一种输入方式进行中文输入,大脑的思维很难在音、形等多种输入方式之间频繁变换,对于太多的需要选择的菜单感觉无所适从。
类似于将锤子、钳子等工具集合成万能工具,实际上并不好用。
因此,该输入法没能推广普及。
(四)语音系统:
汉字语音输入源于语音识别技术,通常是采用马尔可夫信息模型进行统计处理和基于规则方法进行歧义判别。
例如:
说一个字,由于有同音,可能听不懂,说一个词,能听懂的可能性增加,说一句话,都懂了,这是因为话语中的字和词相互之间存在关联因素,以量化方式进行统计分析,得出常用词语之间搭配的统计数量关系,计算机根据这种数量关系,通常能够在一定范围具备“智力”。
1998年,IBM推出的语音识别系统Viavoice,语音识别率达到92%—些国内外厂商基于巨大的中文语言资料库,推出普通话的语音输入系统,实现了每分钟150字以上的高速输
入。
为了证明语音输入系统的先进性与实用性,还多次进行键盘语音大比拼。
1998上半年,
首届10大城市语音和键盘输入对抗赛中,语音输入选手的最快输入速度均高于键盘输入选手,充分验证了“嘴比手快”的道理,一时间,语音输入,前景辉煌。
但是,语音输入仍然存在以下根本缺陷:
1、不认识、读不出音的字,语音不能输入。
2、系统需要对每个用户的发音进行个性化学习,才能正常使用,不具备通用性。
用户如果有口音,输入效果就极差。
3、系统前后关联,一处错误会引发出一连串错误,影响输入速度。
4、要求安静的环境、准确洪亮的发音,对环境依赖性强,适应性差。
5、用户如果连续数小时的大声念稿,将疲惫不堪。
6、用户主要是“想打”,语音输入发音严重影响用户大脑创作思考。
7、将语言学、生理学、心理学等成果进行量化、建模,还需研究。
中文语言环境千差万别,中文语言资料库再大也不能穷尽,语音输入系统自动学习能力还需加强,还不具备实用性,不能进行市场推广普及。
全世界语言信息处理专家梦寐以求的,就是直接通过语音准确的输入各种文字,这是一个从音到形的转换过程,牵涉到一系列尖端边缘科学,要想实现理想实用的语音输入,专家认为尚须50年或更遥远的艰难探索。
(五)手写输入:
1997年,汉字手写输入原理从点阵识别发展到基于语义句法模式识别,从笔段--笔画--
字根--整字4个层次出发,在一定程度上解决了联机手写汉字的识别率问题,已经达到基本实用,例如:
“汉王笔”和“慧笔”。
但是,手写输入仍然存在以下根本缺陷:
1、输入速度慢。
手写1个笔画平均0.7秒,键入1个笔画或字母平均0.4秒;手写1个汉字必须从头到尾全部写完,无法提高输入速度。
2、使用不方便。
必须配备专门的手写板和笔,即便是发展到触摸屏,用手指在屏幕上写字也很不方便。
3、眼睛容易疲劳:
录入者边写边盯着屏幕看,长期操作眼睛特别容易疲劳,不能实现大量汉字的输入。
因此,手写输入只会在特定人群中流行,如对计算机不熟悉,只需要输入少量的汉字,或需要签名的人士。
目前,手写输入在使用最广的PC机上几乎见不到身影,倒是在功能单一、体积微小的掌上电脑流行开来。
(六)笔画输入:
进入二^一世纪,被冷落的笔画笔顺输入成为中文输入的主流。
5个笔画键位:
二十世纪八十年代未,就有了五笔画输入法,即将横一、竖丨、撇丿、点、、折五个
笔画,对应通用键盘的5个字母键位,按照汉字书写笔顺取码输入汉字。
该输入法将汉字30
多个折笔归纳为一个折笔「,导致对汉字离散识别功能太差,汉字平均输入笔画数超过对英文平均输入字母数,严重影响输入效率。
目前该输入法在PC机上只是附加的辅助输入方式。
10个笔画键位:
二十世纪九十年代,手机开始大规模普及。
目前,在10个数字键上,以笔画笔顺输入为主,因输入键位限制,输入效率很底,只能输入短信。
2002年12月,市场推出《三易中文输入法》软件,将30多个折笔归纳为9个折笔平行分布到9个笔画键位。
其笔画键位如下图:
Q
E
R
T
Y
U
I
0
p
7
3
[|
7
F
1
G
H
、
J
乙
K
L
L
2
X
C
V
B
N
M
该输入法键位设置不符合人体工程学,大量键位空闲浪费,严重制约了输入效率,没能推广普及。
26个笔画键位:
1997年3月26日,某人申请专利“笔画码汉字输入法”,将构造汉字大量出现的平笔横、竖、撇、捺,设置在通用键盘上排键,不能发挥手指灵活性,不符合人体工程学,没有创新性和实用性。
其笔画键位如下图:
Q
E
J
R
y
T
1
Y
U
I
X
0
-7
P
I
A
S
b
D
7
F
1
G
、
H
"1
J
I
K
L
-
2
1
X
乙
c
I
V
<
B
L
N
厶
H
L
2000年4月14日,李铁申请发明专利“笔画直接输入的汉字输入法及其键盘”,将笔画
区别和归纳为26个基本笔画(即输入符号),按笔画起始落笔方向和构字次数,将26个基本笔画科学分布在通用键位上,符合记忆规律和人体工程学,笔画键位的分布特征:
上横下竖,左撇右捺,中间是平笔;首次将汉字规范书写笔顺作为汉字输入规则。
其笔画键位如下图:
Q
3
"J
R
"1
T
7
Y
-7
U
T
I
"L
0
1
P
X
A
<
S
厶
[|
7
F
1
G
H
、
J
K
L
2
L
X
L
C
k
V
J
B
b
J
笔画键位如果少于26个,对汉字离散力和输入效率自然就下降,键位空闲浪费;笔画键位如果大于26个,破坏了通用键盘输入键位的事实标准,并且个别笔画构字数极少,基本上不用,没有必要专门安排输入的键位。
根据该发明研发推出了《中文规范输入法》系统软件。
2004年7月27日,某
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 中文 输入 标准
![提示](https://static.bdocx.com/images/bang_tan.gif)