学位论文学术不端行为检测系统Word下载.docx
- 文档编号:14296254
- 上传时间:2022-10-21
- 格式:DOCX
- 页数:25
- 大小:1.21MB
学位论文学术不端行为检测系统Word下载.docx
《学位论文学术不端行为检测系统Word下载.docx》由会员分享,可在线阅读,更多相关《学位论文学术不端行为检测系统Word下载.docx(25页珍藏版)》请在冰豆网上搜索。
这样的分层多阶指纹构造,不仅可以满足我们对超长文献的快速检测,而且,因为我们的最小指纹粒度为句子,因此,也满足了系统对检准率和检全率的高要求。
原那么上,只要检测文献与比对文献存在一个一样的句子,就能被检测系统发现。
1.3系统功能概述
系统主要功能包括:
已发表文献检测、论文检测、问题库查询、自建比对库管理等。
◆已发表文献检测:
指检测系统能够自动将属于用户的已正式发表的学位论文检索出来,并对每一篇已发表文献进展实时检测,快速给出检测结果。
◆论文检测:
主要实现论文实时在线检测功能。
◆问题库查询:
指用户可以将检测结果中确认有问题的文献放入到问题库,便于用户集中管理。
◆自建比对库:
指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库,该自建个人比对库完全属于用户,其他用户无权使用。
1.4系统目的
TMLC的目的是辅助各研究生培养单位对学位论文质量进展评估,为审查论文提供技术效劳。
检测系统在对论文进展检测之后,生成检测报告,为判断论文性质提供相关依据。
第二章检测原理及方法
2.1支撑技术
CNKI拥有强大的技术研发队伍,目前已经拥有了具有国际或国领先水准的全面的数字出版的相关技术,包括资源采集技术,文本数据库加工技术,文本数据库技术,数字资源保护技术,知识挖掘技术,自然语言处理技术、快速比对技术等。
在海量的全文数据的根底上实现快速准确的检测,上述技术是根本的保证。
2.2支撑资源
TMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的?
那么正好满足这一要求。
到目前为止,CNKI拥有学术期刊7000余种,期刊全文文献2480万篇,期刊期数和文献收录完整率都大于99.9%,文献量居国际国同类产品之首;
出版503家硕士学位点的72万篇优秀硕士学位论文,368家博士学位点的9.6万篇博士学位论文;
1286家重要会议论文106万篇;
515家重要报纸500多万篇;
1376种重要年鉴787万篇;
600多种工具书220多万条;
学术引文索引数据600多万条;
这些出版物做到平均日更新20000条记录;
国家标准、专利、SPRINGER数据库也集成到CNKI网络出版平台中;
另外,出版平台还集成整合出版了各类第三方数据库资源1020种。
在收录资源种类上,CNKI在国具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。
在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。
在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。
2.3系统架构模式
2.3.1系统架构图
图3系统架构图
2.3.2系统示意图
检测系统提供整套的文献学术不端行为检测,系统效劳器位于CNKI中心,用户将待检测的学位论文通过网络在线提交到中心效劳器,效劳器在检测完成后,自动将检测结果返回给用户。
整套系统架构为B/S构造,客户端不需要安装任何软件。
其系统示意如图4所示:
图4系统示意图
2.3.3系统流程图
图5系统核心流程图
2.4用户提供的资源
实现学位论文的学术不端检测,用户需要提供的资源包括:
1.论文全文容
论文全文容是检测论文是否存在学术不端行为的根底数据。
本检测系统是对提交的论文全文容进展分析,在容分析的根底上,生成各项检测指标。
因此,全文数据是系统所需要的必要资源。
2.元数据信息
元数据指论文相应的作者、作者单位、发表时间、支持基金工程等信息。
元数据是检测系统对学术不端类型进展判断所需的根底数据,为了更准确的便于系统做出预判,用户可以在提交检测文献的同时,一并提交文献的元数据信息。
特别提到的是:
在进展学位论文检测的时候,作者信息是非常必要的。
输入作者信息,在后续的检测过程中,系统能够自动根据作者信息区分比对资源中的文献是属于该作者已发表的文献,还是他人的文献,为用户快速甄别论文是否存在学术不端行为提供更直观的印象。
因为在学位论文中,引用自己以前发表过的文献是合理的。
注意:
元数据不是系统必需的数据,用户在使用检测系统的时候,可以选择不填写元数据。
但我们建议最好输入作者信息。
2.5检测结果容
在对用户提交的检测文献检测之后,系统生成的检测结果包括:
1.
重合文字来源文献信息。
系统详细列出重合文字来源文献信息,这些文献都是真实存在,而且应是公开发表或得到发表确认的。
2.
比对信息。
检测文献和来源文献的详细比对信息,用户可以快速选择重合文字局部查阅。
3.
总检测指标。
该指标体系从多个角度对检测文献中的文字复制情况进展了概括性描述。
4.
子检测指标。
因为学位论文一般较长,因此,系统一般按章检索,并且每一章给出子检测指标,该检测指标从多个角度对该章容的检测情况进展了详细描述。
5.
诊断类型。
系统根据指标参数以及其他元数据相关信息,自动给出一个预判的诊断类型,供审查人员参考。
6.
检测报告。
检测系统自动生成一个检测报告单,详细列出检测文献的学术不端行为检测情况,用户可以对该报告单进展修改,生成终审报告。
系统只对疑似存在学术不端行为的论文生成检测报告。
第三章检测指标体系
学位论文学术不端行为检测系统采用的指标体系分为两个局部:
3.1总检测指标
学位论文一般文献篇幅较大,字数多,硕士论文一般为3~5万字,博士论文那么多达十多万字。
因此,为了让用户对整个学位论文有一个快速的概况了解,特制定了以下指标体系:
●
总重合字数〔CCA〕
总文字复制比〔TTR〕
总文字数〔TCA〕
疑似章节数〔QCA〕
总章节数〔TCA〕
首部重合文字数〔HCCA〕
尾部重合文字数〔ECCA〕
上述指标从整体情况描述了论文的检测情况,便于用户快速了解该论文总的检测概况。
下面对上述指标分别进展说明。
3.1.1总重合字数〔CCA〕
学位论文一般篇幅大,少那么3~5万字,多那么十多万字,假设以文字复制比来衡量一篇论文的文字重合情况,那么不太适宜。
因为对于一篇十几万字的博士论文来说,10%就已到达1万字,文字复制情况已经非常严重。
因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。
如图6所示:
图6总重合字数例如
3.1.2总文字复制比〔TTR〕
总文字复制比那么是指学位论文中总的重合字数在总的论文字数中所占的比例。
通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。
3.1.3总文字数〔TCA〕
总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。
3.1.4疑似章节数〔QCA〕、总章节数〔TCA〕
疑似章节数是那么检测论文疑似存在学术不端行为的章节的数量。
总章节数那么是指学位论文总的章节数〔对于不按章节显示,而是按照固定长度切分的论文,每一段落为一章节〕。
3.1.5首部重合文字数〔HCCA〕、尾部重合文字数〔ECCA〕
首部重合文字数指学位论文前1万字中重合的文字数量。
尾部重合文字数是指除去前1万字,剩下的局部中重合的文字数量。
对于学位论文,一般开头局部均是综述性的报告介绍,其重要性远低于论文尾部。
3.2子检测指标
对于学位论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来说,每一章的容各异,重点也不一样,其核心工作容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。
子检测指标包括:
文字复制比〔TR〕
重合字数〔CNW〕
最大段长〔LPL〕
平均段长〔APL〕
段落数〔PN〕
段文字比〔PR〕
首部复制比〔HR〕
尾部复制比〔ER〕
引用复制比〔RR〕*
上述指标从多个角度反映了检测文献的检测情况,便于用户进展针对性审核。
下面对各项指标分别进展说明。
3.2.1文字复制比〔TR〕
因为学位论文一般文字量较多,为了便于用户快速浏览检测结果。
系统会自动对学位论文进展切分处理。
有如下两种处理方式:
1.假设用户提交的论文是MSWord格式,且按照MSWord格式生成了文档目录,检测系统会自动识别论文章节,按论文实际章节信息显示论文容。
2.假设学位论文不存在明显的章节信息,或者不是MSWord格式论文,那么系统会自动按照每段1万余字符切分学位论文,按照切分后的结果显示。
文字复制比即指论文切分后每一章节段落的文字复制情况。
文字复制比即指学位论文的某一章节与比对文献比拟后,重合文字局部在该章节中所占的比例。
比例越高,反映该章节越多的文字来自于其他已发表文献。
文字复制比反映了文章“抄袭〞的文字数量比例,一般来说,文字复制比越高,存在学术不端行为的可能性越大。
文字复制比情况如图7所示。
图7文字复制比例如
3.2.2重合字数〔CNW〕
重合字数指学位论文该章节与比对文献比拟后,重合局部的字数。
一般来说,不管文字复制比方何,重合字数越多,存在学术不端行为的可能性越大。
如图8所示,在图中,虽然文字复制比只有16%,比例不高,但图中左文标红局部实际上是抄袭了右文的标红局部。
图8重合字数例如
3.2.3最大段长〔LPL〕、平均段长〔APL〕、段落数〔PN〕
在学位论文检测中,当连续文字超过一定比例时,称之为段。
在本系统中,一般认为,连续200以上文字称为段。
与比对文献重合的最大段长度即为最大段长。
最大段长反映成段抄袭特征。
连续的文字越长,抄袭的可能性越大。
在学位论文中,所有段的长度的平均值即为平均段长。
在学位论文中,所有段的数量为段落数。
平均段长和段落数反映了重合文字在学位论文中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大。
如图9所示,标红局部的连续文字构成了段,而且它是算法设计的抄袭,审查人员比拟容易判断;
而在图10中,标红文字不构成段,连续文字较少,对它的性质判断那么可能需要更多的信息。
图9
段落复制例如
图10句子复制例如
3.2.4段文字比〔PR〕
在学位论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。
段文字比反映了抄袭连续特征。
一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为。
3.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学位 论文 学术 不端 行为 检测 系统