大学毕业论文设计计算机专业文档格式.docx
- 文档编号:22727848
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:10
- 大小:43.01KB
大学毕业论文设计计算机专业文档格式.docx
《大学毕业论文设计计算机专业文档格式.docx》由会员分享,可在线阅读,更多相关《大学毕业论文设计计算机专业文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
本人已经了解语言大学的毕业论文写作的有关规定;
本人的论文是在指导教师指导下独立完成的研究成果。
整篇论文除了文中已注明出处或引用的内容外,绝没有侵犯他人知识产权。
对本论文所涉与的研究工作做出贡献的个人和集体,均已在文中以明确方式注明。
签名:
_____________日期:
________________
人机交互文本标注工具开发
***指导教师:
*****〔指导教师职称〕
摘要:
基于内容的文本信息提取是当前的一个研究热点,无论搜索引擎还是问答系统,其根本的根底是有效的获取文本中的信息。
使用机器学习的方法从语料库中获取有效的知识,以支持文本信息的处理已经成为计算语言学的一个主流技术,而带标语料库如此是这一技术的根底。
带标语料库的建设的根底就是对大量的文本进展标注,并以一定的结构来存储。
这样一来就需要开发一个具有友好的人机交互界面的文本标注工具来辅助文本标注,在一定程序上减轻标注工作者的负担。
这次文本标注工具的设计,处理的目标是纯文本文件,以一篇文档为单位提供用户进展实体,事件,关系的标注,并在标注过程中给出标注的中间结果,最后在保存标注文件的时候进展处理,以xml语言格式进展输出存储。
标注工具的功能包括对文本的实体,事件,关系三大类的标注,对标注过的文本进展标记,提醒用户标注进度,最后对标注中间结果的处理与保存。
本文是对这次人机交互文本标注工具的设计与实现的详细的阐述。
首先对背景与理论知识作了具体的介绍。
然后,分别进展文本标注工具的系统分析、总体架构分析,并对每个模块的具体实现做详细地讲解。
最后,本文还介绍本次文本标注工具设计的缺陷以与未来改良的方案,并对本次标注工具的开发作总结。
关键词:
人机交互,文本标注,MFC编程
TheInteractiveTexttaggingToolDevelopment
Author:
*****Tutor:
*****
Abstract:
Thetextinformationextrationbasedoncontentisacurrentstudyhotspot.Regardlessofthesearchengineortheinterrogator-respondersystem,theirbasicfoundationisgaintextinformationineffective.UsethemethodofmachinelearningtogainstheeffectiveknowledgefromCorpus,supportingthetextinformationprocessingisalreadybeeputaionallinguisticsamainstreamtechnology.Thetaggedcorpusisthetechnicalfoundation.
Thetargetofthistexttaggingtooldesignistheprocessedcorpora(text).Takingthesinglepieceoftextforuserstotagentities,relations,events,andshowintermediateresultsduringtaggingprocess.culminatinginthepreservationoftaggingdocumentsprocessedxmllanguagetotheoutputformatforstorage.Thetool'
sfunctionalannotationincludingtaggingtheentities,theevents,therelationslabeledthetaggingofftext,remindusersthetaggingprogress,anddealingtheintermediateresultsprocessingandpreservation.
Thepaperwilldescribeanddiscussoverthedesignandrealizationofthisinteractivetexttaggingtool.Firstly,detailedtheoreticalbackgroundswillbegiven;
secondly,analysisofthistoolandgeneralstructureforitandthefulldescriptionsabouttherealizationofeachmodelwillbeintroduced;
finally,thedefectsofthedesignofthetoolandimprovementtoitsfuturedevelopmentwillbegivenandasummaryofthestructureandtheperformanceofthesystemwillbedeliveredaswell.
Keyword:
HumanputerInteractive,Texttagging,MFC
第一章绪论
1.1前言
随着互联网的广泛普与,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。
语言资源有计划有规模的开发对于语言信息处理领域的研究和开发具有重要意义。
对文本进展标注就是语言资源建设的一个方面,人机交互式的标注工具是进展语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果。
开发界面友好的标注工具可以进一步的提高标注工作者的效率,同时结构化的输出更方便标注数据的后续使用。
1.2研究背景
信息抽取概述
信息抽取是指从一段文本中抽取指定的事件,事实等信息,形成结构化的数据并填入一个数据库中供用户查询使用的过程。
即它从文本中抽取用户感兴趣的事件,实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和监测、比价购物、自动文摘、文本分类等各种应用提供服务。
例如,灾害预防部门可以从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况;
医生可以从病人的医疗记录中抽取出症状、诊断记录和检验结果;
安全部门分析有线新闻和广播电视的文本来找到和总结恐怖分子活动记录等。
一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。
但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。
基于内容的文本信息提取
由于语言本身的复杂性和富含信息的特点,使得语料库标注的内容、对象可以在语法、语义、语用等各个层次上进展,语料库标注的内容和程度,从根本上决定了从文本中可以提取出的信息内容和信息粒度,也决定了进展文本内容计算的对象、方法。
比如,对于文本片断,
据美国加利福尼亚州罗斯维尔市警方说,一架单引擎飞机12日在罗斯维尔市郊坠毁,机上2人全部死亡,被飞机撞毁的一座房屋中2人失踪。
其中所包含的信息有:
飞机坠毁的时间〔12日〕、地点〔罗斯维尔市郊〕、伤亡情况〔2人死亡,2人失踪〕、该消息的来源〔警方〕、飞机本身的状态属性〔单引擎〕、消息来源的属性〔美国加利福尼亚州罗斯维尔市警方〕、死亡人员的属性(机上2人)、失踪人员的属性〔被飞机撞毁的一座房屋中2人〕、……。
这些信息直接反映了文本片断的意义,包括了命名实体、实体〔如“罗斯维尔市〞、“飞机〞〕;
实体的属性与其间的关系〔如“罗斯维尔市警方〞与“警方〞,失踪人员和房屋的关系〕;
事件〔如“坠毁〞事件〕与其属性〔事件的时间、地点、伤亡情况等〕。
表达这些信息的语言形式是丰富多样的,我们将其称为意义单元。
因此,有效地标注文本中的意义单元,是面向文本内容计算进展资源建设的一个尝试。
根据突发事件的类型,对真实文本中意义单元的属性、特征、相关连方式进展研究,并通过标注体系将其表现出来,是前人没有做过的。
从真实文本的实际数据出发,探索支持文本内容计算、具有意义信息标注的语料库建设是一个新的尝试。
目前,面向文本信息提取的带标语料库的研究,ACE项目进展的较为深入。
ACE对语料库标注形式、方法、内容、对象都作了大量的研究,其标注内容包括文本中的实体表达、实体间的关系表达、事件的表达等。
本文受ACE标注内容的启发,通过对ACE已标数据的分析,确定了以意义单元作为标注对象,期望在标注内容上更加精炼,标注的语言层次上能够贯穿各个层级,同时面对不同的事件信息,能有更准确的表达形式。
此外,从资源建设的角度来看,我们必须建设我们自己的语料库。
1.3开发人机交互的标注工具的意义
目前语料加工的方式主要有三种方式,即人工、自动、和人机结合的半自动方式。
由于自然语言处理技术的限制,自动加工方式会给语料库标注带来一些错误,而人工加工方式非常昂贵,需要大量的人力资源。
相比之下,半自动加工方式如此兼顾两者的优点。
人机结合的方式有两种:
一种是计算机自动选择语料库中需要人工干预的自动加工方式不能解决的局部,从而减少人的工作;
另一种反是如此实现由计算机对加工的语料进展自动加工,然后由人工校对。
对文本进展标注就是语言资源建设的一个方面。
人工标注的过程是一个艰辛的、费时费力的,然而从语言信息处理开展的观点来看,是一个必须进展的过程。
h"
_L%}`V/Ypz
因此开发一个可以辅助标注工作的工具就有它的意义。
人机交互式的标注工具是进展语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果的一致性等问题。
1.4任务描述
本次标注工具开发的主要工作是windows风格的交互环境设计与实现和适用于文本成分的标注风格的设计与实现。
具体就是要完成以下的这些任务:
A.人机交互界面的设计
B.人机交互界面的实现
C.实体,关系,实现具体标注的实现
D.标注中间结果的显示
E.标注结果的结构化输出
1.5论文的组织和安排
整个论文分为四个局部,绪论介绍了这个标注工具出现的背景,解释了我们构造这个工具的必要性,后面各章节全部围绕标注工具设计开发的各个细节来描述。
分别为
第2章标注工具的设计原如此和设计思想,包括用户的各种需求和工具要具备的功能,预先估计工具开发过程中可能会遇到的困难,为工具的具体开发和实现打好根底。
第3章标注工具的具体开发,包括开发环境的选择,设计思想的详细实现,技术难点的分析讨论。
第4章对这次标注工具开发的总结,分析工具的缺陷以与没有解决的问题,以与对系统以后改良开展的看法。
第二章标注工具的设计原如此和设计思想
2.1研究方法和指导思想
……
2.2标注工具的设计原如此
2.2.2文本标注工具的设计原如此
2.3人机交互界面设计原如此
第三章标注工具的具体开发
3.1开发环境的选择
3.2标注工具的设计
3.3标注工具的详细设计
3.4标注过程文本的处理
3.5标注结果
3.6技术难点讨论
第四章标注工具的缺陷分析和功能展望
尽管工具经过反复的设计和考虑,性能进展尽可能的优化,但是本次的标注工具的缺陷还是非常多的,由于时间的紧X和能力的有限,还有许多的功能可以去实现,还有许多的地方需要改良。
本次标注工具实现了简单的人机交互环境,但还有许多需要处理的过程。
如用户标注之后发现标注出错撤销标注的操作,标注过程中的一些用户提示和交互。
标注中间结果的处理,如对标注中间结果按标注内容在原始文本中的位置排序的实现。
完毕语
本论文工作实现了三个功能模块:
1.标注模块:
标注模块实现文本的实体、关系、事件三局部的标注。
这个模块要主要是对文本进展处理,文本的选择,光标在文本中的位置,文本的获得,文本位置的比拟等等。
2.菜单模块:
根据用户标注的需要,设计上下文菜单来实现功能。
用户通过使用上下文菜单来进展标注工作。
3.用户界面模块:
提供用户良好的界面环境和输入环境,这次标注工具的界面由两个窗口组成,方便用户对照标注结果进展标注。
虽然完成了论文预定目标,但是在人机交互上的处理上还有待进一步完善。
致谢
这次毕业设计是在杨尔弘教师的热心指导下才能够得以完成的。
首先感谢她对我学习上的教育和帮助。
在这次毕业设计中,我屡次在交互界面的设计和文本信息处理上和杨教师进展深入的讨论。
由于这次设计周期很长,杨教师一直是耐心的等待我的设计和测试的结果。
再者要感谢这大学四年来在生活和学习上帮助我的院系教师,是他们教授的本领陪伴我度过了这充实的大学生活。
我在这四年中的收获也是很大的。
综合素质有很大的提高,这和教师们的关心教诲是分不开的。
最后感谢与我一起共度四年的同学们,是我们的互相帮助让我们一起成长,一起进步,最终顺利的毕业。
参考文献
[1]JeffProsise著《MFCWindows程序设计》:
清华大学
2002年2月
[2]X阿奇主编《VisualC++使用教程第二版》:
电子工业2003年8月
[3]朱巧明李培峰吴娴朱晓旭等主编《中文信息处理技术教程》
:
清华大学2005年9月
[4]方可燕主编《VisualC++6.0实战与精通》:
[5]查阅了CRichEditView类中相关函数的用法
[6].ergo.
查阅了关于“软件人机界面设计〞的技术文章以与“设计为人〞的关于界面设计的文章
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学毕业 论文 设计 计算机专业