尚书七号使用方法Word文件下载.docx
- 文档编号:21185302
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:18
- 大小:1.12MB
尚书七号使用方法Word文件下载.docx
《尚书七号使用方法Word文件下载.docx》由会员分享,可在线阅读,更多相关《尚书七号使用方法Word文件下载.docx(18页珍藏版)》请在冰豆网上搜索。
1、图片质量。
批量识别时,首先应确保要识别的图片质量。
如不能识别还需要重新处理,甚至会导致软件死掉,浪费时间。
我本人就曾深受其苦。
图片分辨率应稍高,肉眼看感觉偏大,因为识别工具是有点近视的,文字和底色对比要求不高,通常来说,肉眼能看清楚即可,底色发灰或发黑基本不会影响识别结果。
2、避免有不规则形状(图片)出现。
识别工具在进行版面分析时,只能采用方形切割,当图片中存在文字环绕不规则形状时,则无法将文字和该形状划分开,则将出现错误或无法识别。
此时,较快的办法是在PS中,吸取该图片附近的页面底色,用粗画笔将该区域涂上,不必讲求效果,颜色没有太大差别即可,重新保存图片。
3、避免图象倾斜。
尚书七号中也有自动倾斜校正和手动倾斜校正工具,但即使经过校正,识别率还是低很多。
如果是拍摄的书本,可能会产生一定弧度,此时保证行的两端对齐即可。
另外在拍摄时应避免高光等会使图象各部分亮度反差大的情况。
书本转换(扫描、拍摄)技巧
1、可以将书摊平,一次将两边都扫描或拍摄下来,节省时间。
处理图片时不必剪开,这时要用到尚书七号的分栏工具了。
直接用鼠标在打开的图象上拖拽,可出现选框,分成左右两个分栏,分栏左上角的编号就是识别结果的排列顺序。
它会将自动按照编号顺序将所有分栏的内容连接在一起。
2、手动分栏可解决部分图象无法识别的问题。
在进行识别后,可以看到版面分析结果,有时候由于图象质量原因,自动分析出的有效版面只是很小的一部分。
此时可以按ctrl+del取消版面分析结果,用鼠标拖拽,划定需要识别的范围,重新进行识别。
当图片质量问题不大时,这个办法有效。
有时候(尤其是拍摄所得图片),文字扭曲严重,即使用PS也无法调整好。
可尝试手动分栏,多划分几栏,每一栏包含一行或少数几行文字,这样对于每个分栏来说,它所包含的范围内误差度相对减小,可提高识别率。
3、使用批量识别功能。
尚书七号可以一次性识别大量图片。
但在实际应用中,依次识别不宜过多,便于随时检查识别结果,发现错误及时修正。
4、批量识别图象时,保存文件也要花费大量时间。
事实上,尚书七号在识别文件的同时,会在图片所在文件夹生成文本文档,名称与图片名称相同。
因此,如果不是特别需要,可以不必再保存输出结果。
如所识别内容属于一部分,可以将左侧的图象列表全选(ctrl+A),再选择“输出--到指定格式文件”,则当前所有识别内容按照图片排列顺序保存在一个文件中。
我使用的尚书七号不能记忆保存路径,每次选择保存时,都会默认打开程序安装目录下的“outout”文件夹,不必每次都选择路径,可以先保存在这里,然后一起转移文件。
5、如果想保留文件中的图片,在输出结果时选用RTF格式,再用word打开,可以看到格式完全正确的文字和图片了。
6、用书本的页码给文件命名是明智的选择。
我曾经用内容摘要命名,自以为清晰明了,结果在最后修正错误字符时悔恨交加。
7、当一个图象完全无法识别时,可稍稍增加亮度或对比度,有时候只差那么一点点,它也不给你工作。
8、分栏的几个类型。
当单击一个分栏时,工具栏中会相应分栏类型的按纽会按下。
分栏有横栏(横排文字)、竖栏(竖排文字)、图片、表格等几个类型,一般情况下可以自动识别类型,但手动分栏时一定要选择相应的类型,以提高识别率。
以上问题针对拍摄情况而言,扫描的话相信会减少问题,如果能拆书的话,最好还是拆吧。
王(尚书七号)OCR使用方法示例一
因为不断有用户来电咨询尚书7号软件的使用,为此我们这里特别写了一份关于尚书7号软件的使用方法的实际例子,来帮助用户使用好尚书7号OCR软件。
其中,很多是我们自己在使用尚书软件的心得,请用户尽量按照示例来操作。
一、扫描仪驱动程序请切换到高级控制面板状态
为了得到较好的OCR使用效果,建议用户将扫描仪的驱动SCANWIZARD5软件,由初始安装的标准控制面板,切换到高级控制面板状态。
其切换的方法,如下图所示。
二、第一次使用尚书OCR7号软件
1.尚书7号OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权,赠送给用户使用的软件,该软件是放在了扫描仪随机的驱动光盘中,用户可以选择安装。
2.软件安装完毕后,用户请点击桌面左下角“开始”,找到“尚书7号OCR”软件图标,并点击。
打开尚书7号OCR的使用界面。
3.打开尚书7号OCR的“文件”采单下的“选择扫描仪”,选择对应扫描仪的驱动“MICROTEKSCANWIZARD5”的选项。
并选择“确定”。
4.选择“文件”菜单下的“扫描”,将打开扫描仪的驱动。
如下图,下面的界面是扫描仪的“高级控制面板”。
5.拥护请注意选择SCANWIZARD5软件中,左面“设置”窗口中的“图像类型”,请选择“RGB色彩”或者“灰阶”的类型,并注意扫描仪分辨率是300PPI。
6.当用户作完“预览”后,设置需要扫描的范围,就可以点击“扫描”按钮,扫描仪将开始扫描的工作。
将扫描好的文件,直接传递到尚书7号OCR默认的目录中(默认的存储图像文件的目录是用户计算机C盘下的SHOCR2002目录下的IMAGE目录)。
扫描完毕后,请用户关闭掉扫描仪驱动程序SCANWIZARD5.用户可以看到需要扫描的文件已经传递给尚书7号中,默认的文件名是HW001.JPG。
7.请用户选择尚书7号软件中的“编辑”菜单下的“自动倾斜校正”,让尚书7号软件对扫描进来的图像作相应的旋转,以保证图像中的文字是水平排列,而非倾斜。
因为太过倾斜的文字,将影响到尚书软件的识别效果。
9.版面分析完毕后,用户可以看到对应的文字块,都有对应的识别框被选择,如下图。
10.用户此时,请注意,对应的识别框,其属性是否正确。
识别框分别有“横栏”、“竖栏”、“表格”和“图像”等四种属性,分别有四种不同颜色的选框来表示。
11.核对无误后,用户可以使用“识别”菜单下的“开始识别”按钮。
得到的结果如下:
12.此时实际上已经进入文字校对状态:
13.当用户校对完毕后,或者不在尚书7号内作校对,用户可以选择“输出”菜单下的“到指定格式文件”,如下“
用户可以看到,识别的结果,有TXT、RTF、HTML、XLS等格式可以选择。
默认的输出的目录是用户计算机C盘下的SHOCR2002目录下的OUTPUT目录。
用户选择一个对应的文件名,就可以存盘了。
为了方便,用户可以选择“输出到外部编辑器”的选项,这样存盘的同时,尚书7号OCR会自动调出对应的编辑软件,如TXT存盘可以自动调用NOTEPAD软件,RTF存盘将自动调用WORD软件,XLS存盘将自动调用EXCEL软件。
一个简单的OCR操作就此完成了。
三、普通文档(只含有文字)的OCR识别
1.过程与上面所介绍,基本一样,只是用户需要注意存盘格式。
2.一般,如果用户需要对该文字,进行重新排版工作,请用户选择TXT存盘,然后再将其内容拷贝到WORD中。
3.如果用户希望保留稿件的原有格式,并能够作版面的恢复,请使用RTF格式存盘,该格式将有版面的恢复功能。
但是用户只能针对其中的文字,作一些个别字的调整,无法作大范围的排版方式的修改。
四、带表格的稿件的OCR识别
1.其中,扫描、自动倾斜矫正过程同普通文稿是一样的。
2.但是注意“版面分析”后,对其结果进行检查。
应该在表格上,经过版面分析后,有一个兰色的框,选中了表格部分,如果不是,用户需要修改栏属性或者考虑手动划定识别区域。
3.注意输出结果的选择,如果是需要重新排版,用户应该分别用TXT和XLS格式存盘,然后将TXT中的文字和XLS中的表格分别拷贝到WORD,进行排版
神奇的图片文字识别,尚书六号绿色版
尚书六号是中晶公司在中国销售MICROTEK扫描仪时附送的OCR软件。
该软件能够将印刷文字的文稿扫描得到的图片,转化为对应的文本文字,从而提供了一个全新的文字输入手段。
大大提高了用户工作的效率。
尚书六号的软件,特点在于支持彩色、灰度的图像文件,支持TIFF、BMP和JPG格式的文件,以及表格识别功能。
具备以上特点的尚书六号,大大便于了用户的使用,丰富了软件的应用领域。
尚书六号软件安装完毕后,在程序组图标里面出现的“尚书六号说明”,就是一本很详细的用户手册,如果用户需要仔细研究,可以将该说明打印出来就可以。
下面我们主要是介绍,采用MICROTEK扫描仪的驱动软件SCANWIZARD5,如何配合尚书六号OCR软件做好OCR识别的工作的要点。
推荐的工作步骤如下:
1.扫描图像文件。
建议在桌面上直接使用SCANWIZARD5软件,注意将软件切换到高级工作模式。
原因是这样能便于用户检查扫描仪工作时的分辨率。
推荐的扫描分辨率设定在300DPI,色彩模式可以是“RGB彩色”或者“灰阶”。
选择“扫描到”的文件格式是TIF或者JPG两者都可以。
将扫描的文件存在用户确定的目录下面。
2.打开尚书六号读取扫描好的图像文件。
3.被识别图片的预处理。
这部分工作,主要包括:
倾斜校正、设定正确的识别区域。
倾斜校正过程,如图所示,按下工具栏的最下面的一个工具。
按下“图像倾斜校正”工具后,会出现如下的对话窗口:
此时按下“是”按狃。
系统就给予图片做水平的倾斜校正,做完后,结果如下:
注意,自动倾斜校正功能,只能对原稿做+-2.8度的倾角的校正,如果原稿的倾斜角度大于2.8度,系统会建议用户重新扫描稿件,以提高识别率。
如何正确设定识别区域,这是一个值得用户注意的地方:
如下的“海尔”一文,实际是分成两个栏目,进行阅读的,所以我们在设定识别区域的时候,注意需要将这个特点表现出来,需要设定两个识别区域,如图所示。
对于一些文字稿件,中间有图片的时候,我们建议采用绕开的方式,进行识别区域的设定,如下图:
对于表格类的图片,为了将标题栏也能识别进去,我们建议采用如下的识别区域设定,特点是表格部分必须整个框选,同时标题作为一个单独的框选区域。
4.开始进行识别
在开始“识别”的时候,注意识别的软件的设定值是否正确,默认值如下:
5.识别校对完成后,存盘格式的选择文件保存的类型有四种,建议一般文本的识别,用户选择TXT格式。
如果是表格识别,识别结果请选择“CSV”格式,用EXCEL能够打开。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 尚书 使用方法