方正锐思文字识别软件使用手册Word文档下载推荐.docx
- 文档编号:15155073
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:18
- 大小:505.37KB
方正锐思文字识别软件使用手册Word文档下载推荐.docx
《方正锐思文字识别软件使用手册Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《方正锐思文字识别软件使用手册Word文档下载推荐.docx(18页珍藏版)》请在冰豆网上搜索。
北大方正技术研究院多媒体技术部
地址:
北京海淀区成府路298号中关村方正大厦4层401室
邮编:
100871
传真:
(010)82529440
电话:
(010)82529911
E-mail:
mmlab@
网址:
www.founderRD.com
第一章方正锐思文字识别软件3.5系统简介
1.1方正锐思文字识别软件3.5概述
方正锐思文字识别软件3.5,简称方正锐思3.5,是由方正技术研究院多媒体技术部开发的文字识别系统。
文字识别的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。
由此可看出,文字识别实际上是让计算机认字,实现文字自动输入,是一种非常快捷、省力的文字输入方法。
方正锐思3.5有强大的文字识别能力,它不仅包括覆盖传统文字识别功能运用,还提供增值税发票识别(税票专用版)、档案识别(档案版)、表格录入等应用领域的文字识别软件产品。
方正锐思3.5实现了海量纸质文件的快速录入,可广泛运用于媒体、数字图书馆、档案资料馆、政府机关等不同机构的大量文字、图表的自动录入,具有巨大的社会效益和经济效益。
1.2新增功能
方正锐思3.5在3.0的基础上继续开发,进一步提升性能:
扩展了可识别的字体范围,并增强了对字体变体的适应性,提高了对粗体字、粘连字符、模糊样张的适应性。
其识别核心内嵌的的字体范围扩大到了50多种,加上字体的变异,实际可识别的字体超过了100种,覆盖了书籍报刊、杂志等能见到的字体,且提高了识别率。
在字符集方面,除了国标GBK2312的全部一、二级汉字外,又加入了一些常见的3,4级汉字。
在适应性方面,加强了对老样张的处理,能准确地将粘连在一起的字符区分开来,这对识别一些铅印的样张尤为重要。
方正锐思3.5分为专业版和标准版。
专业版相对标准版增加了可识别的字体范围和字符集,适应要求更高的专业文字识别需求。
第二章系统要求和安装卸载
2.1运行环境
硬件环境
IntelPentiumIII700以上,256M内存。
软件环境
中文Windows98/NT/2000/XP系统。
2.2安装和卸载
安装
执行方正锐思3.5的安装目录下的Setup.exe开始安装过程。
按照提示进行。
安装完成后按【完成】按钮即可。
卸载
在【控制面板】里选择【添加/删除程序】,选择【方正锐思文字识别软件3.5】删除即可。
或者执行【方正锐思文字识别软件3.5】程序组下的【卸载方正锐思3.5】,弹出提示:
图2-1确认文件删除
选择【删除】,点击【下一步】,开始卸载过程,卸载完成后弹出对话框,点击【确定】即可。
第三章界面介绍
安装完成后,选择系统的“开始”按钮,点击“Founder”下的“方正锐思文字识别软件3.5”,然后选择“方正锐思3.5”启动。
方正锐思3.5版的界面最上面是菜单条和工具条。
中间是工作界面,基本上分为以下几部分:
图3-1方正锐思3.5界面
1.左上部分显示当前工程中包含的图像文件列表,即所有输入到当前工程里的图像文件,图像格式支持.BMP、.TIF、.JPG(JPEG)三种;
注:
为方便起见,将当前所有输入图像的集合及其操作合称为“当前工程”,下同。
2.左下部分显示当前编辑的图像的预览图,显示分块情况(版面分析);
3.右边分为两个视图:
图像和后编改。
(1)图像视图:
当在左上部分的列表里选中了一个图像文件后,图像视图显示原始尺寸的图像,可以卷滚,可以放大、缩小图像,也可以按当前窗口尺寸显示合适的图片大小。
该视图也称为工作图窗口。
(2)后编改视图:
当执行了【识别】命令后,进入后编改视图,该视图上下分栏,上面显示识别后的文字,下面显示对应的图像区域。
第四章操作流程
4.1获取图像
有两种获取图像的方法:
1.直接输入磁盘上已经有的图像文件。
选择【文件】菜单下的【输入图像文件】命令,或者点击工具条的【输入图像】工具,弹出打开文件对话框,选择要识别的图像文件。
方正锐思3.5支持.BMP、.TIF、.JPG(JPEG)三种图像格式。
2.通过扫描获取图像。
选择【文件】菜单下的【扫描图像】命令,或者点击工具条的【扫描图像】工具,通过扫描仪把印刷品扫描到方正锐思3.5里。
建议:
扫描时设置扫描原稿为“文字”,扫描类型为黑白二色,分辨率最好设置为300dpi。
4.2版面纠斜
扫描时若图像倾斜,对识别效果有较大影响,需要在识别前对图像进行版面纠斜。
方正锐思3.5的自动纠斜功能减轻了用户的这部分工作。
在缺省情况下,【文件】菜单下【选项】中的【自动倾斜校正】选项是选中的,无需用户干预。
若未选中此项,用户也可点击工具条中的【版面纠斜】工具,主动对版面进行纠斜。
4.3版面分析
版面分析就是对图像进行识别前的处理,目的是为识别作准备,包括区域划分、确定每个区域的属性(文本、图像、表格)等。
版面分析由方正锐思3.5在识别前自动完成,用户也可手动操作完成。
版面分析可以识别整个图像,也可以只识别图像部分区域的内容。
选择【图像】菜单下的【版面分析】命令,或者直接点击工具条的【版面分析】工具,方正锐思3.5会给当前图像划分出若干个区域(框)。
如图4-1所示。
图4-1版面分析
也可以用鼠标直接在图像上画矩形框。
假如不选择区域则会对整篇图像进行识别。
可以画多个框,每个框都有编号,编号从0开始计数。
识别时是按照框的标号顺序进行识别的。
画框后,可以用鼠标拖动框边线调整框的尺寸。
用鼠标点击框中的区域不松开可以拖动框的位置。
未选中的框显示为蓝色,选中的框显示为红色,进入【手工调整框顺序】状态的框显示为绿色。
4.4识别
设置好区域后,选择【识别】菜单下的【识别】命令,或者点击工具条的【识别】工具进行识别。
弹出识别进度条,如图4-2。
图4-2识别进度条
若有多个框,则方正锐思3.5将自动按框的标号顺序进行识别。
等待一段时间后,识别的结果显示在后编改视图的右上部分窗口里。
右下的窗口显示原始图像文件。
4.5后编改
在后编改视图里对识别结果进行修改,可对照下面窗口显示的原始图像纠正识别错误的文字。
有疑问的字符显示为蓝色。
识别完成后,方正锐思3.5自动进入后编改窗口,如图4-3所示。
图4-3后编改状态
后编改窗口的最上面显示出当前光标所在位置的字符以及前相关字符和后相关字符供选择。
后编改窗口支持输入和删除,可直接进行编辑修改。
其中,输入的字符以紫色显示。
或者通过选择【编辑】菜单的【上一疑问处】和【下一疑问处】命令对有疑问的字(蓝色字符)进行修正。
修正后的字符以紫色显示。
注意:
在后编改时假如需要编辑图像的话,方正锐思3.5会清除识别结果。
4.6输出结果
通过后编改后的文字内容就可以输出了。
选择【文件】菜单下的【输出识别结果】命令,弹出对话框,把当前正在编辑的文本输出为一个WORD文件或文本文件,或两种文件格式同时输出。
若选择【输出识别结果到同一文件】,则把当前工程里所有图像的识别结果都输出到一个文件里。
或者直接选择工具条的【输出结果】工具,则把当前选中图像的结果输出,弹出【输出识别结果】对话框,选择输出的目标路径,以及输出的格式,点击【确定】按钮。
方正锐思3.5支持输出的文本文件类型有三种:
MSWORD文件(.doc文件)、文本文件(即.txt文件)、文本文件(.txt)&
&
MSWORD文件。
第五章详细功能介绍
本章详细介绍方正锐思3.5的菜单命令。
5.1主菜单
5.1.1文件
输入图像文件
把磁盘上的图像文件输入到当前工程中(工具条上有对应的图标)。
弹出【输入图像文件】对话框,在该对话框中可以实现多选(按Ctrl跳选,按Shift连选)。
一个工程可以输入多个图像文件。
若输入文件名相同的文件,方正锐思3.5会弹出提示“下列文件已经存在:
XXXX”.用户确认无误后选择【确定】即可。
在WIN98系统下使用方正锐思3.5时,请把系统的颜色模式(“显示属性”里)设置为“增强色(16位)”或者“256色”。
否则有些图像输入不进来。
输出图像文件
把当前工程编辑的图像输出成文件保存到指定位置。
支持输出的图像格式为.BMP、.TIF、.JPG(JPEG)。
.JPG(JPEG)文件不支持黑白二值的图像,只有灰度图像或彩色图像才能输出为.JPG(JPEG)文件。
弹出对话框:
图5-1输出图像文件对话框
选择输出的目标路径,以及输出的格式,支持TIF、BMP、JPG三种格式。
若目标目录存在同名文件,则有两个选项可以选择:
1.跳过,不输出该文件;
2.覆盖已存在的文件。
如果以前已经进行过纠斜或其他编辑操作,则输出操作过的图片,否则输出原始图片。
方正锐思3.5以源图像文件名来命名输出后的图像文件名。
该命令支持对多个图像文件进行输出。
输出黑白图像文件
该命令与上面的“输出图像文件”类似,只不过是把当前图像输出为黑白二值的图像文件。
支持TIF和BMP两种格式(JPG文件不支持黑白二值的图像)。
输出识别结果
把当前正在编辑的文本输出。
支持输出的文件格式为MSWORD文件(.doc)、文本文件(.txt)、文本文件(.txt)&
MSWORD文件三种。
【输出识别结果】对话框:
图5-2输出识别结果对话框
在【目标文件】处选择一个已存在的目录,选择【输出格式】。
假如目标目录有同名文件存在,则可以选择【跳过,不输出该文件】或者【覆盖已存在的文件】。
如果输出为WORD文件,还可以选择【简单版面】或者是【复杂版面】输出。
最后点击【确定】按钮。
方正锐思3.5以源图像文件名来命名输出后的文本文件名。
简单版面:
按照版面分析划分出的块的顺序,将每块内容依次输出成文本。
版面比较简单。
没有文本框,便于在文本编辑工具中编辑排版。
复杂版面:
利用文本框,将各块内容作较复杂排版输出,尽可能实现与原件中排版一致。
较复杂版面输出时推荐使用。
只有执行过【识别】的文件可以输出。
输出识别结果到同一文件
把当前工程里所有图像的识别结果都输出到一个文件里。
选择后弹出【输出识别结果】对话框,在【目标文件】处输入文件保存具体路径,选择【输出格式】。
确定【WORD格式选择】为【简单版面】或者是【复杂版面】,最后点击【确定】按钮。
假如计算机上没
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方正 文字 识别 软件 使用手册