倾斜文本图像的快速矫正方法.docx
- 文档编号:900377
- 上传时间:2022-10-13
- 格式:DOCX
- 页数:30
- 大小:167.42KB
倾斜文本图像的快速矫正方法.docx
《倾斜文本图像的快速矫正方法.docx》由会员分享,可在线阅读,更多相关《倾斜文本图像的快速矫正方法.docx(30页珍藏版)》请在冰豆网上搜索。
倾斜文本图像的快速矫正方法
中央民族大学学士学位论文
BachelorThesisofMinzuUniversityofChina
倾斜文本图像的快速矫正方法
姓名:
学号:
0550095
年级:
2005级
院系:
理学院
专业:
信息与计算科学
指导教师:
摘要
本文主要提出一种文本图像倾斜矫正的快速算法。
在一幅给定的文本图像中,空白字符一般都按照一定的规则分布在页面上。
基于文本图像的这一特性,我们提出了一种快速的倾斜矫正方法。
在本文介绍的算法中,我们运用映射原理并对其进行改进。
改进算法采用在各种倾斜角度下对像素统计的方法来判断文本图像的倾斜角度,而不是传统的通过实际转动图像进行判断。
这种算法的优点主要在于处理速度快、抗噪能力强,以及它对文本图像完整性的要求比较低。
这种新的算法原理简单明了,并且可以高效的应用于本文图像的实时矫正。
关键词:
映射;图像;倾斜
Abstract
Thispaperproposesarapidmethodtoaccomplishtextimagescorrectionfromslantones.Inagiventextimage,blankcharactersarealwaysdistributedinaregularpattern.Accordingtothisintrinsicpropertyintextimages,animprovedalgorithmbasedonprojectionprincipleispresented.Inthemethod,statisticsmethodunderdifferentanglesisintroducedandappliedforthejudgeoftheslantangleofagivenimage,insteadoftraditionalmethodofrevolvingthegivenimage.Theadvantageofthisalgorithmliesinitsfastness,robustnessandadecreaseintherequirementofthetextimageintegrality.Themethodcouldbeappliedforthereal-timeslantcorrectioneffectivelyandefficiently,althoughitsfundamentalprincipleissimple.
KeyWords:
Projection;Image;Slant
图表目录
图0-1倾斜图像与正确图像空白行对比…….…………………………………….…..3
表1-1模拟图像与其行投影值………………….……………………….…….….…...4
图2-1两种旋转方式得出的不同结果……………….…………………………….…..9
图3-1坐标旋转示意图……………..………………………………...……………......11
图4-1倾斜的彩色文本图像…………….……………………………………..….…..13
图4-2倾斜的二值化文本图像…….…………………………………….….….…….13
图4-3矫正后的文本图像……………….……………………….…….….…….…...14
图4-4各个角度下的空白行数直方图…………….…………………………….…….14
前言
在数字图像处理领域中,倾斜文本图像矫正发挥着重要的作用。
倾斜图像矫正作为图像预处理过程,为图像具体信息识别和提取奠定必要的基础。
在光学字符识别系统中,倾斜的字符很可能引起以下两个重要的问题[1]:
第一,若对倾斜的字符进行字符分割操作,有可能导致字符本身的分离,也有可能同时造成含有大量噪音的分割块。
第二,若倾斜的字符未进行矫正就直接应用,会使算法锻炼的过程花费更多的计算时间,与此同时,也会造成识别系统所得结果的精确度下降,使算法的稳定性受到负面影响。
鉴于倾斜矫正所起的重要作用,现在大部分的光学字符识别系统都包含字符倾斜矫正过程,作为一个重要的预处理步骤。
精确的倾斜矫正对随后的图像处理具有重要的意义。
对图像的倾斜矫正处理一般包含三个步骤:
首先是选定处理对象中的操作区域,其次是对处理图像倾斜角度的估测,再次是将图像根据其倾斜角度进行倾斜矫正。
显然,以上的三个步骤中,第二步是最重要的,这也是本文主要介绍的算法将要解决的问题。
第三步只需将所处理的图像进行图像旋转即可,这一步骤的实施可以采用简单的图像旋转算法,或者其他的图像处理软件工具,如PhotoShop等。
在相关文献中,文本图像倾斜矫正的方法众多。
一些典型的方法包括动态广义霍夫变换[2]、映射算法、改进的霍夫变换[3]、线性回归[4]、基于图元识别的快速算法[5]以及应用变分辨率图像金字塔策略[6],这种策略的基本原理也是霍夫变换。
长时间以来,由于具有较强的鲁棒性,广义霍夫变换在有关图形识别、特征提取[7]与倾斜数字图像矫正相关领域,一直备受青睐。
霍夫变换的主要原理是将X-Y平面上的点线性映射到平面上的曲线。
然而,由于这种算法巨大的运算量将给计算机带来沉重的运算负担[8],因此,之后致力于减少霍夫变换运算量的改进算法层出不穷。
这些算法包括改进的霍夫变换(ImprovedHoughTransform),这种算法不仅改进了广义霍夫变换的效果,而且很大程度的提高了原来算法的运行处理速度。
对霍夫变换的另一个重大改进是融合了霍夫变换与图像金字塔策略的算法。
这种改进算法通过改变图像的分辨率的方式,在减少运算量的同时获得了较好的抗噪音能力。
而在提高图像处理速度方面,图元识别算法取得了更大的成就。
同时,这种算法保证了计算的结果达到可靠的精度范围。
另一类倾斜文本图像矫正的方法则应用了线性回归方法。
线性回归算法现在仍是一种直线识别的经典数学方法。
利用线性回归方法可以获得颇具竞争力的运算速度,并且具有对图像大小没有限制这一优点。
然而,线性回归算法与霍夫变换相比,其抗噪音的能力比较弱,这也是这种算法的主要缺点。
在实际应用中被广泛应用的还有映射算法。
由于映射算法的原理简单,对计算机存储空间要求低又对所处理的图像完整性要求不高,因此也成为一种较为流行的算法。
但是由于传统的映射算法在操作过程中要实际转动文本图像,因此不可避免的降低了其运行速度。
在本文中,我们致力于寻找一种原理简单、操作容易、处理速度快且具可靠性的算法。
基于映射算法在这些方面的优越性,本文介绍的算法仍采用映射的思想,同时对传统的映射算法进行改进,提高其运行速度。
由于传统的映射算法运行速度受到转动图像的制约,因此我们主要针对“转动图像”的算法进行改进。
在改进算法中,不需要真正的实现文本图像的转动,而是从各个方向去“观察”图像,并对其像素信息进行统计操作。
再将存储的像素信息用于映射操作,实现图像倾斜角度的估测。
这种思想将大大的提高操作速度,使其在实际应用中具有显著的优越性。
改进的映射算法所处理的对象是二值化后的文本图像,即在一幅文本图像中,只有黑、白两种颜色,对应的像素值分别为0和255。
在下文的说明中,我们用“白点”指代像素值为255的像素;“黑点”指代像素值为0的像素。
映射算法的主要思想可以用以下两点阐述:
(1)给定一幅二值文本图像,我们从水平方向观察(水平方向上的)任意一行可以发现,不论我们把图像旋转到何种角度,黑点都是大量分散的分布在图像中,而白点则不同:
只有当图像转到正确的角度时,白点是大量的成行分布的。
因此,白点的水平投影值就成为了确定文本图像倾斜角度的首选指标。
(2)当文本图像被旋转到正确的角度时,水平方向上的空白行的数量会比图像旋转到其他任何角度时多,即当图像以正确角度放置时,从水平方向观察到的空白行数量达到峰值。
由图0-1可见。
图0-1倾斜图像与正确图像空白行对比
论文的余下部分如下展开。
正文的第一章将引入投影的定义;正文的第二章介绍投影算法的具体操作过程;正文的第三章介绍改进算法的主要思想;正文的第四章将展示算法的操作结果;在正文的第五章,我们将对改进算法进行讨论;正文的第六章为本论文的结论。
一投影的定义
为清楚方便的阐述论文思想,我们有必要引入投影在本文中确切的定义。
在《韦伯斯特》字典中,投影的定义为:
通过映射每一个点,将空间中的某物质重建到平面或曲面或者一条线的过程或技术。
在此,为方便叙述,我们提出一种在本文使用中更加精确明了的投影概念。
定义在二值图像上建立笛卡尔平面坐标系;将整个二值图像分割成最小单位—像素;累加某一水平行上的白点数目,计算所得的结果即为指定行上的白点的水平投影。
由于图像中除了原有的文本字符信息外,还会掺杂一些噪点,因此我们可以更进一步设定一个合适的阈值来定义空白行。
也就是说,如果某一行上白点的水平投影值大于我们预先设定的阈值,那么这一行就被认为是空白行。
经过灰度及图像二值化处理,彩色图像中的噪音信息被处理为黑白图像中的黑点。
阈值的引入使投影算法能够包容图像中偶然出现的噪点,从而算法具有更强的鲁棒性,使其能够抵抗图像中不可避免的随机噪音信息。
一个合适的阈值,可以通过对一幅图像在几个角度取不同的阈值进行实验,使实验结果中白点水平投影峰值最清晰明确的那个值即可确定为最终的阈值。
通过上述定义,我们可以得出,在一个给定的二值图像中,我们可以唯一确定一个水平空白行的数目。
与此同时,依据上述定义,我们亦可以定义某一列中白点的垂直投影。
为了更充分的理解投影的定义,通过表1-1对投影进行说明。
在表1-1中,我们用模拟了一个二值化图像,其中,X代表白点,空白格代表黑点。
在表1的第一列,我们给出了依据上述投影定义得出的每行的白点投影数。
行投影值
模拟图像
3
X
X
X
2
X
X
3
X
X
X
3
X
X
X
3
X
X
X
3
X
X
X
表1-1模拟图像与其行投影值
二传统的投影技术
(一)投影技术概论
在本文对传统投影算法的实现中,我们设定,对于一个倾斜的文本二值图像,其倾斜角度的范围为0到180度之间(包含0度而不包含180度)。
也就是说,经过矫正后的图像可能是完全正着的,也可能是正好倒着的,而这两种情况在对图像的后续操作基本没有影响,因此,将文本图像的倾斜角度的变化域设为180度是合理的。
本文计算倾斜角度的增量为1度,即结果精确到1度。
对一幅给定的倾斜文本二值图像,我们依次计算其在0到180之间每个角度的水平空白行的行数,并将其储存在一个一维数组中。
之后,我们在所储存的数组中找到最大值,同时也可以得到最大空白行数,即峰值对应的旋转角度。
显然,这个倾斜角度就是我们所要求的图像的倾斜角度。
该投影算法的输入值为一个二值化后的文本图像,输出值为算法计算得到的该文本图像的倾斜角度。
(二)投影算法的具体操作过程
第一步:
对于一个给定的文本二值图像,首先计算该图像中每一个水平行的白点的投影数。
之后,我们将这些值与预先设定的阈值作比较,比阈值大的投影数值所对应的行判断为空白行。
从而,对于输入的文本二值图像,我们计算出了该角度下的空白行数。
第二步:
储存文本图像现在的角度和其在该角度下对应的空白行数(初始角度为0度)。
存储可通过一维数组来实现。
之后,判断文本图像现在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 倾斜 文本 图像 快速 矫正 方法
![提示](https://static.bdocx.com/images/bang_tan.gif)