汉字输入技术与方法Word格式.docx
- 文档编号:19170887
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:15
- 大小:30.21KB
汉字输入技术与方法Word格式.docx
《汉字输入技术与方法Word格式.docx》由会员分享,可在线阅读,更多相关《汉字输入技术与方法Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
汉字是从16区到87区,01至15区是图形符号和字母。
区位码输入支持《信息交换用汉字编码字符集--基本集》即GB2312-80的内码输入方式。
内码编码的范围为:
0xA1A1~0xFEFE。
GBK内码输入覆盖了汉字扩展内码规范--GBK中规定的全部汉字。
UNICODE码输入支持《通用多八位编码字符集(UCS)》-国际标准ISO/IEC10646.1-1993中规定的全部汉字。
可以输入所有的汉字,包括所有的符号,和内码一一对应,只要内码支持多少汉字,它就可以输入多少字。
如在OfficeXP的简体中文版中,可以达到对6万多汉字的输入支持。
对于不认识字的字也可以输入,可以通过偏旁部首对照表来进行
安装OfficeXP简体中文版,Microsoft在中文简体版OfficeXP及相应多语言包中,专门开发了超大字符集中文字体(宋体-方正超大字符集)及增强型区位码。
宋体-方正超大字符集字体包括了27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。
因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。
宋体-方正超大字符集中包括了6万4千多汉字,但是由于其中相当多的汉字读音很难确定,使得按拼音输入的方法难以实现。
为此,微软公司专门扩展了原区位/内码/Unicode输入法,开发了增强型区位码。
对于GBK中的汉字(即在Unicode中U+4E00~U+9FFF),用户可以继续按原来的方式输入(通过输入区位码,GBK内码或Unicode码)。
但是对于扩展A的汉字只能通过输入Unicode码,对于扩展B只能通过输入一种4字节的Surrogate码。
总之,通过增强型区位码用户不仅可以输入GBK的汉字,而且可以顺利输入扩展A及扩展B的汉字。
用户只需就要查找汉字在《康熙字典》(或《汉语大字典》)中相应的页码(《康熙字典》的xxxx.xxx或《汉语大字典》的xxxxx.xxx),并在搜索中将该页码字符串作为关键字进行搜索,找到相应的Unicode或Surrogate,然后激活增强区位输入法即可进行输入。
《康熙字典》页码格式为:
xxxx.xxx《汉语大字典》页码的格式为:
xxxxx.xxx。
这里特别要注明的是这里数据来源于1958年1月第一版的《康熙字典》。
这里小数点前为该汉字在字典中的页码,小数点后两位为该汉字在该页中的位置。
如果最后一位为“0”表示该汉字确实在该页内。
如果后一位为“1”,则表示该汉字并不在该页中,此时数点后两位则代表按笔画数该汉字应该排在该页的第几个。
二、拼音类的输入法
拼音类的输入法的使用用户众多,其突出的优点是易学,从Windows内置的全拼、到智能ABC、微软拼音、再到紫光拼音等,有一系列的优秀输入法。
1.全拼输入法
特点:
支持GBK大字符集
输入效率较低的输入法
2.智能ABC输入法
智能ABC输入法(又称标准输入法)是中文Windows95/98中自带的一种汉字输入方法,由北京大学的朱守涛先生发明。
它简单易学、快速灵活,受到用户的青睐。
A.内容丰富的词库
智能ABC的词库以《现代汉语词典》为蓝本,同时增加了一些新的词汇,共收集了大约六万词条。
其中单音节词和词素占13%;
双音节占着很大的比重约有66%;
三音节占11%;
四音节占9%;
五~九音节占1%。
词库不仅具有一般的词汇,也收入了一些常见的方言词语和专门术语,例如人名有"
周恩来"
等中外名人三百多人;
地名有国家名称及大都市、名胜古迹和中国的城市、地区一级的地名,约2000条。
此外还有一些常用的口语和数词、序数词。
熟悉词库的结构和内容,有助于恰当地断词和选择效率高的输入方式。
B.允许输入长词或短句
智能ABC允许输入40个字符以内的字符串。
这样,在输入过程中,能输入很长的词语甚至短句,还可以使用光标移动键进行插入、删除、取消等操作。
C.自动记忆功能
智能ABC输入法能够自动记忆词库中没有的新词,这些词都是标准的拼音词,可以和基本词汇库中的词条一样使用。
智能ABC允许记忆的标准拼音词最大长度为九个字。
D.强制记忆
强制记忆一般用来定义那些非标准的汉语拼音词语和特殊符号。
利用该功能,只需输入词条内容和编码两部分,就可以直接把新词加到用户库中。
允许定义的非标准词最大长度为十五字;
输入码最大长度为九个字符;
最大词条容量为四百条。
用强制记忆功能定义的词条,输入时应当以“u”字母打头。
E.中文输入中输入英文
在输入拼音的过程中(“标准”或“双打”方式下),如果需要输入英文,可以不必切换到英文方式,只需键入“v”作为标志符,后面跟随要输入的英文。
例如:
在输入过程中希望输入英文“windows”,键入“vwindows”,按空格键即可。
F.以词定字输入功能
无论是标准库中的词,还是用户自己定义的词,都可以用来定字。
用以词定字法输入单字,可以减少重码。
方法是用“[”取第一个字、“]”取最后一个字。
G.简拼与混拼相结合
简拼的规则为取各个音节的第一个字母输入。
对于包含zh、ch、sh(知、吃、诗)的音节,也可以取前两个字母组成。
混拼输入是两个音节以上的拼音码,有的音节全拼,有的音节简拼。
H.双打输入
智能ABC为专业录入人员提供了一种快速的双打输入。
在双打方式下输入一个汉字,只需要击键两次:
奇次为声母,偶次为韵母。
下面列出了双打输入的声母和韵母的定义表,可以看出其使用规则并不复杂,只要记住各个键的含义就行了。
复合声母和零声母定义表
智能ABC提供阿拉伯数字和中文大小写数字的转换能力,对一些常用量词也可简化输入。
“i”为输入小写中文数字的前导字符。
“I”为输入大写中文数字的前导字符。
例如:
输入“i3”,则键入“三”;
输入“I3”,则键入“叁”。
J.用户词库的备份
如何备份自己所定义的词库呢?
智能ABC的用户词库存放在目录“C:
\Windows\System32\”下(假定Windows安装在目录C:
\Windows下),文件名是tmmr.rem和user.rem。
如果我们要重新安装Windows,就要先备份这两个文件,安装完毕后,再将这两个文件复制到目录“Windows\System32\”下,覆盖系统默认的同名用户词库文件。
这样,即可保证在重新安装系统后,仍可使用原有的用户自定义的词汇。
缺陷:
不支持GBK大字符集。
3.微软拼音输入法
微软拼音输入法是微软公司和哈尔滨工业大学联合开发的智能化拼音输入法,是一种以语句输入为特征的第三代输入法,许多对输入速度要求不太高,并且熟悉拼音的用户非常欢迎它。
Office2000中文版中使用了2.0版,WindowsXP中文版和OfficeXP中文版安装了3.0版,Office2003中文版使用了4.0版。
A.设置:
单击微软拼音输入法状态条上的“功能设置”按钮
B.中文输入
微软拼音输入法2.0支持全拼或双拼输入方式(可在“属性”对话框中设置)。
这两种输入方式都支持带音调、不带音调或二者的混合输入。
输入法分别以数字键1,2,3,4代表拼音的四声,5代表轻声。
输入的各汉字拼音之间无需用空格隔开,输入法能够自动分隔相邻汉字的拼音。
如“这是”带音调输入为zhe4shi4,不带音调输入为zheshi。
带音调拼音输入的字词准确率将高于不带音调的拼音输入。
微软拼音输入法2.0的输入结果为整句或词语。
用微软拼音输入法输入一个词句时,可连续输入语句中各字的拼音,一个字的拼音输入结束不用敲空格或回车,待下一个字的第一个拼音输入,会自动将前一字的拼音转化为汉字。
输入结果下面有一条下划线,表示当前句子还未经过确认,处于组字窗口的句内编辑状态。
此时若发现句内有错字,应按左右方向键将光标移至错字前(候选窗口会自动弹出),按减号键或等号键(或单击候选窗口右端的翻页按钮)翻页,出现合适的字词后按数字键,即将输入错误或音字转换错误的字词替换掉。
其中,候选窗口中蓝色(由输入法智能匹配)的字词可按空格键直接替换。
整句输入、修改结束后需按Enter键加以确认。
C.手写输入
微软拼音的手写识别引擎与市面上销售的各种输入手写笔不相上下。
用微软输入法你可以使用鼠标直接在屏幕上书写,只要不是缺很多笔划,它都能识别出来。
而且识别速度非常快。
D.双拼输入
为了提高输入速度,用户可采用双拼输入,即用两个英文字母输入一个汉字。
使用鼠标左键单击输入法状态窗口的全拼/双拼切换按钮,切换至双拼输入状态即可。
有关双拼的定义,可参见下面的“双拼输入键位表”
4.紫光拼音输入法
紫光拼音输入法是一个完全面向用户的,基于汉语拼音的中文字、词及短语的免费的输入法。
特点:
大容量精选词库,收录8万多条常用词、短语、地名、人名以及数字,优先显示常用字词,而字词的使用频度(词频〕则从一亿七千万字语料中统计而来。
支持GBK大字符集,支持简繁体分别输入。
强大的用户自定制功能,用户可定制输入习惯、定制双拼编码、定制输入界面、定制模糊音设置、定制中文符号输入、以及定制输入法的智能特性。
兼容MicrosoftWindows95/98/Me/NT/2000/XP中文版,兼容MicrosoftOffice、InternetExplorer中文版等系统和应用软件。
支持Windows系统的多用户特性,不同用户可以有不同的输入法设置和各自的词库。
可以备份并恢复用户词库,可以合并不同的用户词库中自定义的词。
用户可批量导入自定义的词和短语。
用户可以随时删除不再需要的词。
除了拼音外,用户使用最多的输入法就是五笔,但标准的86版的五笔并不好用,许多五笔爱好者开发出来了一些非常好用的五笔输入软件。
1.极点五笔
这是一个由杜志民设计的免费的五笔输入软件。
极点中文是一个完全免费的中文输入平台。
所有编码集为a~z的输入法均可挂接到本平台上并同时具有以下功能:
① 智能辨别编码、拼音,编码与拼音单字可同时录入(也可选用拼音词组录入),或使用临时拼音;
② 具自动造词、在线造词功能,所造词组可为任意字符;
③ 具手动、自动调序及在线删词功能;
④ 支持BIG5码输出,且具有简入繁出功能;
⑤ 具编码、拼音互查功能;
⑥ 清新的界面,随心所欲定制系统皮肤、外观;
⑦ 纯文本、全开放式码表,自由打造完全属于自己的输入法。
输入模式的切换:
极点的汉字输入模式有两种,其功能及应用场合如下:
①五笔临拼:
此时状态栏显示“五笔字型”,遇有不会单字或词组时可按“;
,”(分号和逗号)进入拼音状态,此模式适合高速盲打;
②五笔拼音(Ctrl+\):
此时状态栏显示“五笔拼音”,遇有不会拆分或书写的单字或词组时可以直接用此字的拼音来录入,此模式不太适于高速盲打。
英文输入
用户可以通过以下几种方式输入英文字母:
① 用右Shift键切换到英文输入状态,输入完后再按右Shift键返回中文输入状态;
② 用鼠标点击状态栏切换到英文状态,输入完成后再次点击返回;
③ 如果要输入简短英文,如网址、邮箱地址等内容时,可以按“;
”键切换到‘临时英文’输入状态,输入完英文后按回车键字母上屏且返回中文输入状态;
④ 输入简短英文,且首写的英文字母为大写时,可按“Shift+字母”来输入英文,按回车键字母上屏且返回中文输入状态;
⑤ 启用网络输入模式时,当用户键入http、ftp:
、bbs.或www.时极点会自动切换到英文输入状态,输完后按回车返回中文。
实时造词
极点具有强大的造词功能,提供了四种造词方法:
在线造词、自动造词、高级造词和批量造词,同时也具备在线删词、删除自动造词功能。
在输入过程中首先输入构成新词的字,接着按;
进入快捷英文后输入“x‘(单引号)”再按一次回车键完成造词。
其中x代表1~30的数字,含义为本次造词要包含的汉字个数。
例1:
所造的词为“五笔爱好者”,则输入“五笔爱好者”后按“;
5‘”再按一次回车键即可;
例2:
所造的词为“君不见黄河之水天上来”,则输入“君不见黄河之水天上来”后,按“;
6‘”,候选窗显示为“河之水天上来”,再用←键把前面的“君不见黄”4个加上,回车。
在输入过程中首先输入构成新词的字,接着按“Ctrl+=”组合键进入造词状态,造词窗口会提示用户最新输入的两个单字。
通过按“←”和“→”两个光标键可增减构成词组的字,若要删除某个字,请用“←”键将其移到最左端,然后按Delete键删除。
最后按回车键将新词加入系统词库。
所造的词组下次可以词组的方式输入。
自动造词
用户遇到一些专用人名、地名等词库中没有的专用词时,首先将其输入,再次输入时便可以词组的方式输入,因为极点已经自动将这些单字或词组合成新词组了。
这些自动造的词会以红色(可在相应皮肤配置文件中自己设定)显示,想将某词加入用户词库时按“Ctrl+词的序号”选择此词即可。
高级造词
极点的词组中可以包含任意字符,用“Ctrl+=”等造词方式实现此高级造词功能。
批量造词
首先把要添加的词放在一个文本文件中,然后用鼠标右击极点状态栏,从【工具】→【批量造词】的菜单项,之后按提示完成批量造词操作。
极点对批量造词文件的要求:
① 包含所造词组的文件必须是纯文本文件;
② 每个词组单独为一行;
③ 每个词组的最大长度为200个汉字或400个半角字符;
④ 词组可以是任意字符,词组中包含空格时,请以“$20”代替空格,以“$13”代替回车。
GBK汉字输入极点中文可以通过以下两种方式中的任一种来输入GBK汉字(如:
咩、唸、哋、咗、嚟、喎、啱、嗰、啲、冇、镕、堃等):
① 用鼠标右键点击极点状态栏,出现系统设置菜单,点击【输入法设置】,出现设置窗口,选中“输入出镕、冇等GBK难字”项。
② 用户可随时按“Ctrl+M”进入GBK内码状态,输入GBK汉字。
输入完成后可按“Ctrl+M”返回到GB2312汉字输入状态。
③用鼠标左键点击极点状态栏,出现系统设置菜单,将鼠标移动到【输出设置】,选择【GBK】。
在五笔输入过程中难免遇到一些生僻难拆的汉字,那么在极点下如何输入这些汉字呢?
很简单,直接键入此字的汉语拼音即可。
如用户要输入“幢”字,但不知如何拆分,此时可键入“zhuang”并用“+”翻页找到此字并可查得其五笔编码。
如果下次遇到“幢”字但又忘记它的编码,没关系,键入“zhuang”后在汉字候选窗第一位的便是“幢”。
五笔编码查出来了,那么如果遇到不认识的字怎么办呢?
如“昱”字。
同样简单,首先用鼠标把“昱”字涂黑或在编辑器中录入“昱”之后按“Ctrl+?
”,极点会弹出一个提示框,显示这个字编码为“juf”,读“yu4”
2.海峰五笔
海峰五笔是有史以来支持的字符集最大、能打出的汉字最全、兼容异体字最多的免费通用输入法。
在Windows95/98中,能够输入国家标准GB2312-80、GBK规定的全部汉字和偏旁,共计21004个。
在WindowsNT/2000中,能够输入国家标准GB2312-80、GBK、GB18030规定的全部汉字和偏旁,共计27564个。
在WindowsXP/2003中,能够输入国际标准Unicode(包括CJK+CJK-扩展A+CJK-扩展B)规定的全部汉字和偏旁,共计70275个
支持CJK-扩展B汉字显示的字体:
1、简体中文版MicrosoftOfficeXP及更高版本附带了宋体-超大字符集中文字体,支持上面提到的全部27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆、香港特别行政区(以及部分台湾地区)使用的汉字。
换言之,它支持CJK-扩展A中的全部汉字和CJK-扩展B中的部分汉字。
2、繁体中文版MicrosoftOfficeXP及更高版本则提供了支持超大字符集的细明体(MingLiUExt-B与PMingLiUExt-B),可以从已装有Office的电脑中单独找到该字体文件,复制到本机Windows系统下的Fonts文件夹中即可。
需要注意的是,此字体全面支持CJK-扩展B中的42711字,但不支持CJK-扩展A中的6582字。
海峰五笔UNICODE超大字符集字体支持包:
完美结合了大陆与港台的数种主流字体,支持GBK、GB-18030、CJK-B各大字符集内全部简、繁体汉字的显示,通用于Windows98/NT/2000/ME/XP/2003系统。
安装此包之后,用宋体即可显示任何汉字。
安装:
首先安装通用unicode字库支持文件:
unifonts.exe
其次安装海峰五笔:
SunWb.exe
第二节 汉字的字形识别输入
一、字形识别输入基础
1.概述
汉字字形识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题,它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。
2.分类
汉字字形识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机(on-line)手写汉字识别和脱机(off-line)手写汉字识别
2.分类
从识别的角度来看,多体印刷体汉字识别难于单体印刷体汉字识别,手写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。
经过科研人员的努力,我国已有印刷体汉字识别和联机手写汉字识别的商品出售,目前已形成百家争鸣、百花齐放的局面,但是脱机手写汉字识别还处于实验室研究阶段。
在脱机手写汉字识别领域,非特定人脱机手写汉字识别又难于特定人手写汉字识别。
联机手写体的输入,是依靠电磁式或压电式等手写输入板来完成的。
在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中。
从这些电信号我们可以比较容易地抽取笔划和笔顺的信息。
3.发展
我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段:
(1)第一阶段从70年代末期到80年代末期,主要是算法和方案探索。
(2)第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。
(3)第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。
同国外相比,我国的印刷体汉字识别研究起步较晚。
但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步:
从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。
各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。
清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统
4.印刷体文字识别
与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。
印刷体文字识别的过程如图所示。
原始图象是通过光电扫描仪,CCD器件或电子传真机等获得的二维图象信号,可以是灰度(Grayscale)或二值(Binary)图象。
过程:
预处理包括对原始图象的去噪、倾斜校正或各种滤波处理。
版面分析完成对于文本图象的总体分析,区分出文本段落及排版顺序,图象、表格的区域;
对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。
行字切分是将大幅的图象先切割为行,再从图象行中分离出单个字符的过程。
特征提取是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉字输入 技术 方法