反抄袭系统的设计与实现.docx
- 文档编号:6095849
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:5
- 大小:20.45KB
反抄袭系统的设计与实现.docx
《反抄袭系统的设计与实现.docx》由会员分享,可在线阅读,更多相关《反抄袭系统的设计与实现.docx(5页珍藏版)》请在冰豆网上搜索。
反抄袭系统的设计与实现
反抄袭系统的设计与实现
摘要:
在基于“OCR”形成的word下,全文匹配搜索技术与数据库的连接与校对鉴定技术,抄袭鉴定技术的嵌入是系统的核心,用来对现有文件进行数据库的索引及判定负责与外部文件进行实时数据交换。
在全文检索技术的基础上嵌入校对鉴定技术与抄袭鉴定技术。
本文着重介绍反抄袭系统(又称UN-COPY)各部件的技术原理与实现。
关键词:
反抄袭;COPY;“OCR”;搜索;数据库中图分类号:
TP311文献标识码:
A文章编号:
1009-3044(2007)12-21615-02
TheDesignoftheAnti-CopySystemandRealization
LUOGuo-hui
(Electronics&InformationCollege,YangtzeUniversity,Jingzhou434023,China)
Abstract:
Basedonthe"OCR"toformtheword,bymatchingsearchtechnologyanddatabaseconnectivityandsynchronizationidentificationtechnology,Plagiarismidentificationtechnologyembeddedsystemisthecoretotheexistingdocumentdatabaseindexingandconvicting,externaldocumentswiththereal-timedataexchange.Thispaperintroducestheanti-copyingsystem(ANTI-COPY)ofthevariouscomponentsofthetechnicalprinciplesandimplementation.
Keywords:
Anti-plagiarism;copy,"ocr";search;database
1前言
“Un-copy”是一种能鉴别文章是否为抄袭的智能系统。
将手写的文字或印刷的文字通过扫描输入计算机,然后应用“OCR”技术将扫描得到的图像转换成WORD文档,再利用全文搜索技术在数据库中进行校对,匹配,鉴定。
然后根据不同的鉴定标准给出相应的判断。
它将从一种行之有效的途径阻止当今社会上愈演愈烈的抄袭之风,从客观上解决我国严重的知识侵权问题。
不仅仅是电子版的鉴定,而且在
“OCR”的基础上实现了文本式抄袭的鉴定。
它必将成为今后考试批改过程中一个不可缺少的工具。
对保护知识产权有着重大的意义。
2系统实现
2.1实现模式
2.2技术介绍
2.2.1“OCR”技术
OpticalCharacterRecognition,即是通过光学技术对文字进行识别,是自动识别技术研究和应用领域中的一个重要方面。
它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要的图像输入设备主要是扫描仪。
“OCR”的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字或字母的编码。
其具体工作过程是,扫描仪将汉字或字母文稿通过电荷耦合器件“CCD”将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。
计算机接受的是文稿的数字图像,其图像上的汉字或字母可能是印刷汉字或字母,也可能是手写汉字或字母,然后对这些图像中的汉字或字母进行识别。
对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。
“OCR”识别有两种方式。
与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1这两个数
字来记录和进行识别的,所有信息都只是以0、1保存的一
串串点或样本点。
“OCR”识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。
单元模式匹配识别法(PatternMatching)是将每一个字符与保存有动态标准字体和字号位图的文件进行不严格的比较。
如果在数据库中可以找到与之相匹配的二进制存储形式,则应用程序会选取合适的字符进行正确的匹配。
软件还必须使用一些特殊的处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较,及“动态”标准的试验。
当识别速度达到一定程度则可以认为“OCR”是在全
面扫描一页文本,并鉴定出每一个字符在数据库中所对应文本并进行替换生成WORD文档。
当一些字符不可识别时便进行人工选择或人工录入。
特征提取识别法(FeatureExtraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。
然后,又将这些特征与理解(识别)的字符进行匹配。
如应用程序识别到两条水平横线,它就会“认为”该字符可能是“二”这种方法类似于五笔输入法。
特征提取法的优点是可以识别多种字体,针对中文书法体大部分软件都是采用特征提取法实现字符识别的。
由于国内目前各类考试还未实现电子化,这种基于
OCR”技术的“UN-COPY”针对国内各类考试中抄袭与
否的判定将有重大的应用
2.2.2全文搜索与数据库的联机实现技术内嵌搜索引擎利用“网络机器人”进行检索,校对,采用FullTextSearchEngine和Directory使“网络蜘蛛”在庞大的数据库中迅速“爬行”。
而数据库有网络与单机的不同版本。
对于连接到了internet的计算机,全文搜索引擎可以遍历Web空间,利用常规的网页资源搜索技术和智能识别技术。
从而使一定IP地址范围内与之相关的内容全部放在缓存空间,从而“蜘蛛”便从网络上的一个链接“爬向”另一个链接,从一个网站到另一个网站采集网页资料,保证了采集资料的最新化;它还会回抓“过时”网页资料以保证索引范围的广阔度,这种方式较容易实现,因为网页资源共享使其成本不高,也就节省了额外的数据库建设。
而针对于单机,则需要建设文字数据库,“UN-COPY”对于不同用途将有不同的数据库。
如果用于鉴别诗词,则建设相应的诗词数据库,可以将中国古诗词与中国现代诗词以及国外诗歌等按国家、作者、性质、年代等不同的分类标准录入,适用于不同的鉴定条件。
如果针对散文,则建设相应的散文数据库。
对于中学生的作文,则可以将市场上出现的各类作文书与历届作文作为数据库建设的源材料。
如果针对学术论文则可将CNKI中的CJFD,CDMD,CCND等作为数据库建设的源材料。
其它各种数据库根据不同的鉴定性质使用相应的数据库,为了保证严密性,也可以融合各种性质的数据库。
这些限制条件都起着辅助作用,去掉了一些根本不可能的来源搜索,从而大大提高了搜索鉴定速度。
2.2.3检索、校对技术
全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。
这是一种可以不依赖主题词而直接使用自由词进行检索的技术方法。
不同的检索系统其位置算符的表示方法不尽相同,如美国DIALOG检索系统的位置算符的用法意义:
(1)(W)—With:
(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。
(W)也可以简写为()。
(2)(nW)—nWords:
(nW)表示在此算符两侧的检索词之间最多允许间隔n个词,且两者的相对位置不能颠倒。
(3)(N)—Near:
(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。
(4)(nN)—nNear:
(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。
(5)(S)—Subfield:
(S)表示其两侧的检索词必须是在文
献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。
在文摘字段中,一个句子就是一个子字段。
(6)(F)—Field
(F)表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序和相对位置的距离不限。
根据检索结果按照不同的判定标准给以相应的鉴定。
按照无初始位置,长度最大化的方式去检索、校对,然后输入文章来源与copy比例。
2.2.4抄袭鉴定技术
当图像格式变成了WORD格式后,将继续鉴定文本来源,进行抄袭与否的判定。
实现这一过程主要是利用全文搜索技术在数据库中的校对匹配实现。
全文搜索引擎会从文章中进行无起始位置的信息采集,它可以按一定比例提取文章内容加入搜索队列,且采用多线程同?
i检索。
比如:
如果用户要判定下面这句话是否是抄袭它处,“我心中有新房,这所房没有围墙,天是我的窗,地是我的房,带着它可以四处流浪,和世人做一个迷藏,到最后、只有自由做我的陪葬。
”全文搜索引擎将这段文字加入搜索缓冲,然后对其进行无起始位置的检索,“我心中有所房”可以成为一个搜索元,然后再向后追加检索信息“这所房没有围墙”,依此逐步判定整个句子。
所谓无起始位置检索是指检索信息不一定就是从第一句话开始,也可以从第
二句、第三句开始,或者从第二个词第三人词开始按一定文字比例进行检索,如“带着它可以四处流浪”,可以分解成“带着它”、“带着它可以流浪”、“可以四处流浪”“四处流浪”等各种搜索元。
当然,实际应用中是采用一定比例文字进行检索的,可以按段落进行一次搜索元分解,实现一次文章筛选,然后按句子进行精确鉴定。
这种检索技术没有建立实际的数据库索引而是直接对文章进行匹配。
采用多线程方式实现不同部分同时检索鉴定。
相互综合得到最后的鉴定信息。
加入鉴定技术模块的全文搜索技术可以很快地检索到数据库中与之相匹配的文字、词组、句子、段落等并分类列出搜索到与之相匹配的信息,来源,时间及其它相关信息。
根据国家专利局,教委,学校等的不同评判标准,进行校对鉴定程序开发,这个程序相对来说比较简单,只要在数据库的基础上嵌入检索,校对,鉴定等部分即可。
3开发细节
实际开发需解决如下问题:
如何才能完美的完成数据库的建设与更新?
如何实现人性化的文章性质判定?
如何提高检索速度?
如何批量完
成“UN-COPY”任务?
基于目前市场上已有的各种文章数据库,包括网络网页文章,以及各种文学库,足以鉴定一般文章的原创性质。
而实现人性化判定则主要是通过确定文字鉴定比例,文章匹配方式,限制鉴定条件,人为选择判定部分等方式实现。
通过文章性质以及一些其它条件的限制,通过从大体到局部,从模糊到精确的鉴定方式,采用多线程方式都可以从很大程度上提高鉴定速度。
采用多线程,父进程与子进程等方式可以实现批量任务完成。
真正实施起来也并非难事,只需要将搜索引擎与数据库
的联接以及校对鉴定嵌入处理好后,在“OCR”的帮助下完
全可以解决目前考试抄袭的不良问题。
4结束语
根据“UN-COPY”的运行机理,在软件资源已基本成熟的前提下,不改变“OCR”与搜索引擎的基本框架的前提下对与目标软件相关的代码进行整合连接,使之能够成功的引导本系统。
通过分析,只需要对经过“OCR”操作过后的
WORD进行数据库连接,利用搜索引擎加入校对程序,即可实现COPY判定。
本技术实现的可行之处在于,基本模块技术都已成熟,只需要处理彼此的连接与嵌入。
本系统的成功在于它在一定程度上可以解决抄袭问题,不仅仅是电子版的鉴定,而且在“OCR”的基础上实现了文本式抄袭的鉴定。
它必将成为今后考试批改过程中一个不可缺少的工具。
参考文献:
[1]NeilMatthew.等.编著.ProfessionalLinuxProgramming[M].机械工业出版社,2002年.
[2]NicholasA.Solter,ScottJ.Kleper.等.编著.ProfessionalC++[M].机械工业出版社,2006年.
[3]施耐德.Internet第一搜索引擎:
Google检索指南[M].辽宁科技出版社.
[4]孙琼.嵌入式Linux应用程序开发详解[M].人民邮电出版社,2006年.
[5]FrankVahidTonyGivargis.EmbeddedSystemDesign:
AUnifiedHardware/SoftwareIntroduction,JohnWiley&sons,Inc.出版.
[7]陈榕庭,彭美桂.CD/CMOS图像传感器基础与应用月日[M].科学出版社,2006年.
[8]晓月.全文检索原理及实现[J].程序员,2006.
“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抄袭 系统 设计 实现