印刷体汉字识别技术的研究毕业设计.docx
- 文档编号:29058854
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:81
- 大小:838.79KB
印刷体汉字识别技术的研究毕业设计.docx
《印刷体汉字识别技术的研究毕业设计.docx》由会员分享,可在线阅读,更多相关《印刷体汉字识别技术的研究毕业设计.docx(81页珍藏版)》请在冰豆网上搜索。
印刷体汉字识别技术的研究毕业设计
印刷体汉字识别技术的研究
摘要:
印刷体汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。
汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理。
实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。
本文首先在第一章就汉字识别研究的意义和背景以及对目前存在的问题作了综述。
第二章对印刷体汉字的识别过程进行基本概述。
第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;分析了统计模式识别方法、结构模式识别方法以及人工神经网络模式识别方法;第四章用Matlab对系统进行了仿真;最后在第五章进行全文总结并预测了汉字识别技术研究今后的发展方向。
关键词:
汉字识别;特征提取;匹配识别;人工神经网络;Matlab仿真
TheresearchofprintedChinesecharactersrecognitiontechnology
Abstract:
PrintedChinesecharacterrecognitiontechnologyisakindofautomatichigh-speed,informationinputmethod,becometheimportantfunctionsofthecomputerinterface,stillcanasofficeautomation,thepressandpublishing,machinetranslation,etc,theidealinputhaswideapplicationprospects.TheaimofChinesecharacterrecognitionistomaketheChineseinputmorenaturalandconvenientsothatthecomputercouldprocessChineseinformationmoreeasily.Inpractice,largevolumeofletters,newspaper,magazinesneedtobecoveredintoacodedrepresentationoftheinputcharacters.That'swhatprintedChinesecharacterrecognitioncando.Firstly,inchapter1,thisthesisgiveswhatisthesignificanceofresearchandbackgroundofChinesecharacterrecognitionandintroducetheproblemsweencounterednow.Thechapter2,itisabasicoverviewoftherecognitionprocessofprintedChinesecharacters.Inchapter3,wediscussestheprinciplesandprintedcharacterrecognition,featureextractionandanalysis,thepost-processingprocess,Emphaticallyanalysesthestatisticalpatternrecognitionmethod,structuralpatternrecognitionmethodandArtificialneuralnetworkpatternrecognitionmethod.Inchapter4,givinganMatlabsimulationconcludesthewholearticleandforecastcharactersidentificationtechnologyresearchdirectionsoffuturedevelopment.
KeyWords:
Chinesecharactersrecognition;featureextraction;Matchingrecognition;Artificialneuralnetwork;Matlabsimulation
1绪论
1.1印刷体汉字识别技术的研究意义
汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中华人民智慧的光芒。
同时也是世界上使用人数最多和数量最多的文字之一。
在跨入信息时代后,现如今汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是呈爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。
然而,随着人们对电子化信息需求的日益增加,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的重要前提,更是能否传播与弘扬中华民族悠久历史文化的关键因素。
传统的人工键入不仅速度慢而且劳动强度大,即使是专业的打字员每分钟也只能输入100-120个汉字。
这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。
而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。
人们要求有一种能将文字信息高速、自动输入计算机的方法,于是印刷体汉字识别技术便应运而生。
这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对社会各方面的工作都有着相当深远的意义。
目前印刷体汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。
汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(OpticalCharacterRecognition)的重要组成部分。
汉字识别是一门多学科综合性的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等技术都有着千丝万缕的联系。
一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的相互进步。
因而该技术有着重要的实用价值和理论意义。
同时,中国是使用汉字最久远和最广泛的国家。
因此,能否在汉字识别技术的研究方面占据领先的位置也是中国科技实力的一项至关重要的体现。
1.2印刷体汉字识别技术的研究状况
印刷体汉字识别是文字识别技术的一种。
利用机器识别文字符号,可以说从1929年奥地利科学家陶舍克利用光学模板匹配识别开始。
当时,他使用了10块模板对应10个数字,依次把待识别的数字投影到这10块模板上,当模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。
大约在50年代末60年代初,就已经出现了关于利用计算机识别数字及英文符号的研究论文。
据文献记载,印刷体汉字的识别最早可以追溯到60年代中期。
1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。
随后,日本也在70年代开始对汉字识别进行了研究。
1981年5月在日本第56届商业展览会上,富士通研究实验室进行了手写印刷体汉字识别的公开表演。
1984年日本武藏野电气研究所研制成多体印刷汉字识别装置,可以识别2300个多体汉字的印刷体汉字识别系统,识别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平[1]。
此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统,但因这些系统价格极其昂贵,没有得到广泛应用。
直到80年代中期以来,以软件为主并使用通用高档微机的产品才逐步走向市场。
同国外相比,我国的印刷体汉字识别研究起步较晚[2]。
我国在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末仅有少数大学和研究所开始进行汉字识别的研究并发表了一些论文,研制了少量模拟识别软件或系统。
但由于我国政府从80年代中期开始对汉字自动识别输人的研究给予了充分的重视和支持,汉字识别技术进入了研究的高潮。
经过科研人员这些年的辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。
各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。
进入90年代以来,印刷体汉字识别研究的主要目的是提高识别系统的品质和效率,增强系统对不同文本的适应性,扩大使用面。
在加强版面分析、识别结果上下文匹配后处理和各种实用化技术的研制的同时,进行对识别方法的进一步研究,促使更实用的产品广泛出现。
1.3印刷体汉字识别技术存在的难点
由于汉字具有以下几个方面的特点,使汉字字符在识别难度上远远大于字母化字符的识别。
(1)类别较大
目前我国常用汉字约3000~4000个。
国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。
第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。
目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。
可以说,字量大是造成汉字识别困难的主要原因之一。
(2)结构复杂
汉字是一种结构性很强的文字,每个汉字都具有独一无二特定分布的若干笔划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。
笔划和部首的不同排列组合,构成了数以千计表达不同含义的结构异常复杂的汉字字符。
与世界上常用的其他民族的文字相比,汉字的结构是最为复杂的。
(3)相似字多
部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“土”和“士”这两个字仅在下部笔划长短有细微的差别而已。
即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易发生混淆[3]。
识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。
汉字的以上几个特点就决定了没有单一的一种特征就可以完成对汉字的识别,因此如何有效的选取各种特征,有效的进行组合,使它们在匹配速度和识别率上都能满足实际需求就成为整个系统的关键。
2印刷体汉字识别的概述
2.1印刷体汉字识别的原理简介
汉字识别(CCR:
ChineseCharacterRecognition)是用电子计算机自动辨识印刷在纸上或者人写在纸(或其他介质)上的汉字。
汉字识别技术是计算机智能接口的一个重要组成部分。
从学科上划分,汉字识别属于模式识别和人工智能的范畴。
它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合性的技术。
该系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。
核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。
预处理是在所有识别处理之前进行的,它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。
随着汉字识别技术的深入研究,汉字的特征提取的算法越来越多,如何选择特征和如何组合优化特征已经成了研究的重要领域。
汉字识别的基本思想是匹配识别,匹配识别技术涉及到分类器的设计等重要问题,这也是非常重要的一个环节。
汉字的后处理是出于获得最大化识别率考虑,它在前期已有识别水平上,通过调整参数或反馈处理获得更高的识别率。
在本文中,将二值化,平滑去噪,文本行字切分都归为预处理。
汉字图像通过光电扫描仪,CCD器件等工具扫描成为二维图像信号(数码图像),该种信号在文本中以图片(jpg,bmp等格式)形式显现,而后通过本文所介绍的预处理,特征提取与匹配及相关后处理等实现汉字识别的过程。
2.2印刷体汉字识别的流程简介
印刷体汉字识别的过程主要过程包括预处理、版面分析理解、文本行字切分、特征提取、汉字识别、识别后处理,在本文中,将版面分析理解、文本行字切分都归为预处理。
系统框图如2.2.1所示。
图2.2.1印刷体汉字识别流程图
版面分析主要是对文本图像的总体进行分析,区分出文本段落及排版顺序,图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。
行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。
特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、规范化(Normalization)等。
提取特征的稳定性及有效性,直接决定了识别的性能。
文字识别,即从学习得到的特征库中找到与待识别字符相似度最高的字符类的过程。
后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。
由此可见,印刷汉字识别技术主要包括图像处理模块,图像版面的分析与理解模块,图像的行切分与字切分模块,单字图像的特征提取与匹配模块,特征库,识别结果的后处理模块。
其中单字图像的特征提取与匹配模块是印刷汉字识别中最为核心的技术。
近几年来,印刷汉字识别系统的单字识别正确率已经超过98%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。
3印刷体汉字识别技术的研究
3.1预处理
由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存在着各种外在的干扰,图像质量也有偏差,对识别效果有一定影响。
因此,在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。
预处理通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等[3][4]。
(1)版面分析
印刷体文字识别常遇到的识别主体不是一个文字段,而是整个版面,所以版面分析是印刷体文字识别系统中的重要组成部分。
它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。
这一过程的自动完成算法还不是很完善,有些部分常由手工完成,最终的系统能够自动完成所有的版面分析。
(2)二值化
将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理[5],二值化的主要目的是将汉字从图像中分离出来。
通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。
若阈值取的过大,则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰;若阈值取得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。
如何确定此阈值的过程也就成了研究二值化算法的重点。
现如今,汉字图像二值化方法多种多样,但大多都有应用限制。
研究一种适合各种文字图像的二值化方法也是预处理环节的重点。
(3)倾斜校正
通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。
倾斜校正的核心在于如何检测出图像的倾斜角。
目前,倾斜角检测的方法有许多种,主要可分为5类:
基于Hough变换的方法;基于交叉相关性的方法;基于投影的方法;基于Fourier变换的方法和最近邻簇方法。
灵活运用倾斜角度检测算法将是倾斜校正环节的重要研究方向。
(4)行字切分
汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。
汉字的切分分为行切分和字切分。
行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下来[6]。
典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行开始的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。
同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为行下界。
字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下来。
典型的算法是,在确定这一行的行上界和行下界之后,从左到右搜索一行文字的左右边界,切分出单字或标点符号。
从左边开始垂直方向的行距内像素单列累加和均大于一个试验常数,则可认为是该汉字的左边界。
同理,当出现连续一个汉字宽度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为该汉字的右边界。
对文本汉字行来说,由于存在左右分离字,宽窄字,字间交连等,加上行间混有英文、数字、符号、和字间污点干扰,使得字切分比行切分困难得多。
(5)归一化
归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。
汉字图像的归一化往往会带来两个问题:
一是字符图像的缩放可能会引入一些干扰;二是图像缩放本身的运算量较大。
所以,必须采用恰当的归一化方法来尽可能的消除尺度变化对特征值提取的影响。
(6)平滑
对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。
平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量,在实际应用中,采用WXW(一般采用3x3)的辅助矩阵对二值文字图像进行扫描。
根据辅助矩阵中各像素0、1的分布,使处于矩阵中心的被平滑的像素X从“0”变成“1”或者从“1”变成“O”。
常用的平滑滤波方法有中值滤波和均值滤波[7]。
(7)细化
细化处理是在图像处理中相当重要和关键的一环,它是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。
细化处理的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。
细化处理结果的好坏,直接影响到识别的效果和质量。
在细化处理过程中,一方面,去除的像素太少,则不能充分有效地减少图像的信息量;另一方面,去除的像素太多,特别是某些关键像素若被去除,则改变了原始图像的主要特征。
因此,高质量的细化算法程序对图像识别有很大的实用价值。
针对文字图像的细化算法已有很多,它的优劣对系统的识别效果影响很大。
对细化的一般要求是保持原有笔画的连续性,不能由于细化造成笔画断开;细化成为单层像素线;保持文字原有特征,既不要增加,也不要丢失,保持笔画特征,最好细化掉笔锋:
细化结果是原曲线的中心线,保留曲线的端点,交叉部分中心线不畸变。
针对各种不同的应用,国内外已发表了许多细化算法,如Hilditch经典细化算法、Deutsch算法等。
然而,细化过程本身固有的弱点总是造成笔画骨架线的畸变,增加对识别的干扰,主要的畸变包括:
交叉笔画畸变、转折处出现分叉笔画、失去短笔画和笔画合并等。
可以说,这些问题依赖细化算法本身是无法克服的,需要在后续的处理中尽量消除这些畸变的干扰。
3.2汉字特征提取
预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。
对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。
但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了效用[8]。
例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。
在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。
针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。
所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。
但不得不提到的是,任何一个实用的。
识别系统只利用其中部分子空间的信息。
由于信息的缺陷,便不可避免地遇到识别“死角”的问题。
如下介绍并分析一下常用的一些的可供提取的汉字特征。
(1)结构特征
①抽取笔画法
抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机印刷体识别中,由于笔画提取的困难,结果不是很理想。
②松弛匹配法
松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。
这种方法利用弹性吸收汉字的变形,一个字只用一个样本。
其缺点是操作速度较慢,计算量大。
③非线性匹配法
非线性匹配法是由Tsukumo等提出的,用以解决字形的位移、笔画的变形等现象。
此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。
(2)统计特征
①特征点法
特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。
特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。
其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。
②笔段特征法
汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。
利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。
其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。
当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。
选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这也是设计者需要考虑的因素。
③四边码(Four-sideCode)
四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。
由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。
当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。
选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这都需要通过具体的实验来验证。
但不管使用什么样的特征,汉字特征的提取都要遵循区别性、可靠性、独立性和特征数量这四个标准[9]。
而本文为实现特征提取,我们将着重于对汉字的横竖撇捺四种特征的提取(汉字本身属性决定),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向数据统计特征提取法,13特征点提取方法等,本设计中将引入13点特征提取法。
3.3汉字识别算法分类
识别算法是整个识别过程的核心部分。
原始图像经过预处理后,得到一个较为理想的二值图像,然后就可以对这个处理后的二值图像进行识别。
识别的过程包括根据识别算法选择和提取汉字的特征、与标准文字的特征进行匹配判别。
汉字的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 印刷体 汉字 识别 技术 研究 毕业设计