基于WordXML的多维论文自动抽取组件设计毕业设计论文.docx
- 文档编号:23613541
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:35
- 大小:422.19KB
基于WordXML的多维论文自动抽取组件设计毕业设计论文.docx
《基于WordXML的多维论文自动抽取组件设计毕业设计论文.docx》由会员分享,可在线阅读,更多相关《基于WordXML的多维论文自动抽取组件设计毕业设计论文.docx(35页珍藏版)》请在冰豆网上搜索。
基于WordXML的多维论文自动抽取组件设计毕业设计论文
HUNANUNIVERSITY
毕业设计(论文)
设计(论文)题目:
基于WordXML的多维论文
自动抽取组件设计
基于WordXML的多维论文自动抽取组件设计
摘要
多维科技论文是一种新式的科技论文,可以在科技论文创作平台帮助下,进行方便高效地编辑。
较之传统论文,它拥有更丰富地表达方式,如音频、视频、动画、图片等。
突破传统科技论文发表周期长、表达方式单一等诸多限制,实现作者、读者、编审人员的跨时空沟通和零距离管理。
当前的科技论文发表主要是以传统的word格式的文档为主,格式要求严格细致。
科技论文工作者往往要花费大量的时间和精力对论文的内容和格式进行修改。
这个过程繁琐而低效。
本论文研究如何将word文档导入到多维论文中,通过wordxml方法对word文档中的元素结构进行自动分析,结合OfficeWord编程对象实现了对word文档中的标题、作者、email、关键字、正文、图片、音频、视频、动画等元素的自动抽取的相关方法,使用数据结构在多维论文平台中建立起树型结构,有序地表示元素,从而完成了word文档中各元素的识别,帮助论文工作者免除了大量的繁琐过程。
设计程序时,还考虑到用户界面的友好性,将识别出的内容立即显示到界面。
该组件使用officeword编程接口,可以作为独立的文件格式转换器使用,也可集成于多维论文创作平台,移植性强。
下一步研究更多文档的xml结构,可以将多种格式的文档兼容,实现多种格式论文的导入多维论文。
关键字:
officeword二次开发,xml,多维论文
Designofmulti-dimensionthesisabstractioncomponentbasedonWordXML
Author:
JuZhang
Tutor:
HaoChen
Abstract
Multi-dimensionscientificpaperisanewstylethesis,whichcanbeeditedeffectivelywiththehelpofscientificpapercompositionplatform.Comparedtotraditionalpaper,multi-dimensionscientificpaperownsricherpresentationmethods:
audio,video,animation,picturesetc.breakthroughtherestrictionsoflongdeliverycircle,singlepresentationmethodsandimplementthezero-distantcommunicationandmanagementofauthor,reader,editor.
Currentdeliveredscientificpapercanbecategorizedtotraditionalworddocumentandisformattedstrictly.Thepapercomposermustpayplentyoftimeandenergytomodifythecontentandformat.Thewholeprocessistediousandlowefficient.
Thispaperfocusonhowtoimportworddocumenttomulti-dimensionplatform,andanalysiselementsofworddocumentbywordxmlautomaticallyandimplementtheautoelementsextractionoftitle,author,email,keywords,context,pictures,audio,video,animationetc.,buildthetree-typestructureofextractedelementswithrelativedatastructureandhelpthecomposeravoidredundantwork.Thiscomponentcanbenotonlyusedasindepentformattransformer,butalsointegratedinmulti-dimensionscientificpapercompositionplatform.Inthatcondition,commonpapercanbeimportedtotheplatformdirectlyforeasyedit,whichreducethetimecostandimprovetheresearchefficiencyofcomposition.ThefurtherworkistolearnmoreaboutXMLstructureandfulfillthecompatibilityandtransformsofmulti-formatsdocument
Keywords:
theseconddevelopofofficeword,xml,Multi-dimension
目录
1.绪论
1.1课题研究的背景
本课题来源于中国教育部科技发展中心的多维论文项目[1]。
科学技术是第一生产力,科技创新与成果转化能力已成为一个国家的核心竞争力之一。
科技论文是科研人员传播创新科技思想的重要载体,是促进科技成果转化为现实生产力的关键一环。
然而,以纸质期刊为代表的传统科技论文存在表现形式单一、出版周期长等问题,在较大程度上束缚了科研人员创作和科研成果转化的能力,不能有效满足科研人员日益增长的使用需求。
从总体上看,传统科技论文存在的主要不足有:
1.传统科技论文包含的媒体格式相对单一,一般仅为文字和静态图表;
2.投稿、审稿、出版周期较长,制约创新科技思想的传播速度和科研成果转化效率;
3.科技论文表现力不够,无法以声音、视频、动画等多媒体方式多角度、生动形象地展现一些动态效果,如复杂实验的推导过程和模拟效果等;
4.科技人员在论文创作时缺乏一个高效、便捷的集成创作、沟通和服务平台;
本项目实施针对传统科技论文的诸多不足,研究集成文字、图形、图像、声音、视频、动画等多种媒体的科技论文多维表达方式及集成创作关键技术,并将借助先进的计算机网络技术陆续构建分布式环境下的科技论文集成创作平台及相关服务和管理平台,突破传统科技论文发表周期长、表达方式单一等诸多限制,实现作者、读者、编审人员的跨时空沟通和零距离管理[2]。
1.2国内外研究现状和发展趋势
研究现状:
目前国内外的论文载体方式主要以传统的纸质期刊和电子数据库为主。
这样的论文方式不具备多维度媒体展现,高效制做,方便交流和管理的特点。
日益增长的信息量使得生产效率得不到有效的提高。
国内外的论文管理者都在想办法研究各自标准的论文格式,可以满足上述的不足,提高科技工作者的工作效率和知识的传播率。
国内的中国科技论文网站已经开发出这样的一种格式和基础平台,并在不断地完善功能,提供更多地服务。
发展趋势:
论文编辑器将作为科技工作者创作论文的主要工具[3]。
使用论文编辑系统将极大地提高科技工作者对论文的创作效率。
多维格式的论文可以表达出传统论文不能表达的更形象生动的信息。
同时,极大的方便了作者的修改,读者的阅读。
对论文的管理将不会出现格式混乱,随意修改的现状。
多维论文将统一传统论文的格式,作为一种新的论文载体,更能满足科技工作者对论文的制做阅读和管理的需要。
1.3课题研究的目的
本课题研究的主要目的是完成多维科技论文基础创作系统的一个组件。
该组件的功能是基于WordML格式分析传统word格式文件中的论文要素,将之按多维科技论文的格式要求生成多维论文,为论文的进一步加工和检索打下坚实的基础。
在从传统论文向多维论文的转换过程中,对之进行手工录入将是一件费时耗力的工作。
本课题最终将实现一个组件,该组件可自动导入传统的doc格式文档,通过对论文要素的智能识别和抽取,将之快速转换为xdoc格式的多维论文格式的文档。
1.4课题研究的主要内容
本课题研究的主要内容是完成多维科技论文基础创作系统的一个组件。
该组件的功能是基于WordML格式分析传统word格式文件中的论文要素。
1.识别word文档的书签,并将书签转换到多维论文文档相对应的部分[4]。
运用vs2005提供的函数对xml文档解析和操作,对关键字进行识别。
2.对不规则或者无书签的word文档进行自动识别,判断出标题,作者,文摘等关键字。
建立数据结构,对特定关键字进行搜索,判断出正确的书签,并进行标记。
3.将书签对应的内容放入多维论文文档相对应的部分,形成多维科技论文。
对出现在word文档中的相关标识进行标记,进行判断处理出正确的关键字,将关键字放入xdoc格式文档的相对应部分。
1.5本文结构
本论文各章节的内容安排如下:
1、绪论:
介绍了课题研究的背景、课题的主要内容、课题研究的目的、国内外现状和发展趋势。
2、多维论文创作平台概述:
从总体上介绍多维论文创作平台,包括主要的功能,多维论文创作平台的开发架构,平台开发技术和工具。
3、多维论文的officeword开发方法:
介绍基于officeword2003开发的功能,office开发环境,office开发方法,多位论文的office开发方法;多维论文的WordXML技术分析:
介绍WordXML格式,多维论文的xml格式,结合officeWordXML对多维论文的操作方法。
4、自动抽取组件设计与实现:
介绍自动抽取组件的功能介绍,界面设计,基于word平台和多维论文现有平台的接口方法,对章节的数据结构算法设计,对关键字、样式、书签等的识别方法。
2.OfficeWord开发技术和OpenXML技术简介
2.1导论
本课题主要用到是两种技术officeword开发技术和openxml技术都是微软公司所提供的编程技术和格式标准[5]。
微软公司的目的在于帮助开发者对微软的office系列产品进行二次开发,是office的强大功能能够在更为广泛的范围内使用和推广。
针对开发者,微软在msdn上有对上述技术的详细的介绍,并对编程接口有具体的定义和文档说明。
本课题所用的officeword接口主要用于对传统word文档的的内容进行解析。
OpenXML主要用于对多维论文的素材进行解析和格式规范定义,使得多维论文编辑器能够有效识别转换出的多维论文。
2.2OfficeWord开发技术
2.2.1OfficeWord技术介绍
MicrosoftOffice是微软公司开发的办公自动化软件,它包括Word、Excel和PowerPoint等办公组件,是当今主流的办公处理软件,可以作为办公和管理的平台,以提高使用者的工作效率和决策能力[6]。
Office是一个庞大的办公软件和工具软件的集合体,为适应全球网络化需要,它融合了最先进的Internet技术,具有更强大的网络功能;MicrosoftOffice不仅是日常工作的重要工具,也是日常生活中电脑作业不可缺少的得力助手。
1983年1月1日,微软发布WordForDos1.0,这是一个里程碑式的软件产品。
技术非常领先,Word从底层开始就是为图形界面设计,是第一套可在计算机屏幕上显示粗体,斜体,能显示特殊符号的文字处理软件。
支持鼠标和激光打印机。
它最初是由RichardBrodie为了运行DOS的IBM计算机而在1983年编写的。
随后的版本可运行于AppleMacintosh(1984年),SCOUNIX,和MicrosoftWindows(1989年),并成为了MicrosoftOffice的一部分。
作为微软公司和操作系统一样重要的产品,microsoftoffice获得了公司战略性的支持。
在之后的10年间,微软的office打败了主要的几个竞争对手,凭借强大的功能和技术支持,基本上形成市场垄断.众多的政府、公司和个人都使用微软的办公产品。
为了进一步的稳固市场的领先地位,微软开发出几代office系列产品。
到目前为止,微软已经开发出了最新的office2007.为了满足更加广泛的用户需求以及世界技术的发展,,微软从office2003开始就宣布将不在使用二进制文件来存持文档,所有的文档格式都将以xml为基础进行存储.并且,微软制定了自己的文档存储格式openxml,并且以此为标准向外界公开.同时,提供一系列office开发组件,支持软件开发者通过对microsoftoffice的二次开发。
OfficeWord开发主要是指:
基于微软的offcieword软件平台进行的二次开发,即通过对word文档中的信息的解析,分类,分析,提取出更深入的信息。
对这些信息进行深加工,使之更符合用户的需要[7]。
OfficeWord开发拥有很大的前景:
(1)OfficeWord拥有政府,企业,个人众多数量的用户。
对于word中的信息的高效深层次提取由巨大的需求。
(2)在OfficeWord上,可以降低使用者的软件使用成本。
(3)微软可以为Office解决方案提供快速可靠的技术支持。
(4)微软提供了简洁,功能强大便于管理的word应用程序接口,方便开发人员进行学习和二次。
早期的office程序是由VB(VISUALBASIC)编写的。
所以基于早期版本的Office应用程序开发主要是通过VBA(VISUALBASICAPPLICATION)进行编程。
由于其及其缺乏支持面向对象的能力,所以为现在的程序员带来编程的繁琐和复杂。
从Office2003开始,微软的最新的.NET平台集成了Office应用开发工具,使得普通.NET程序员可以通过C#、C++的程序接口高效轻松地完成Word、Excel、Outlook、Visio等程序的二次开发。
在进行Office二次开发之前需搭建好相应的开发环境,本课题使用的是VisualStudio2005+Ofiice2003平台。
VisualStudio2005,在解决方案资源管理器中添加引用。
在COM组件中添加名为MicrosoftOffice11.0ObjectLibrary和MicrosoftWord11.0ObjectLibrary组件后即可进行Word二次开发编程。
下图是在VS2005对象浏览器中添加的引用组件:
word命名空间。
添加该组件后,即可在VS2005中,对word进行二次开发。
图2.1添加引用word组件
2.2.2基于本课题的OfficeWord开发技术应用
2.2.2.1officeWord编程模型介绍
图2.2officeword对象模型图
上图是OfficeWord的对象模型图,图中说明了本课题开发所主要采取的对象模型和类,方法等。
下面主要介绍主要的几个对象:
(1)Application对象:
Application对象表示Word应用程序,是其他所有对象的父级。
它的所有成员通常作为一个整体应用于Word。
可以使用该对象的属性和方法来控制Word环境。
(2)Document对象:
Microsoft.Office.Interop.Word.Document对象是Word编程的中枢。
当您打开文档或创建新文档时,就创建了新的Microsoft.Office.Interop.Word.Document对象,该对象被添加到Word的Documents集合中。
焦点所在的文档叫做活动文档,由Application对象的ActiveDocument属性表示。
(3)Selection对象:
Selection对象表示当前选择的区域。
在Word用户界面中执行某项操作(例如,对文本进行加粗)时,应首先选择或突出显示文本,然后应用格式设置。
Selection对象始终存在于文档中。
如果未选中任何对象,它表示插入点。
此外,它也可以是不连续的多个文本块。
(4)Range对象
Range对象表示文档中的一个连续的区域,由一个起始字符位置和一个结束字符位置定义。
Range对象的数量并不局限于一个。
您可以在同一文档中定义多个Range对象。
Range对象具有下面的特性:
它的组成成分可以是单独的插入点,也可以是一个文本范围或整个文档它包含非打印字符,例如空格、制表符和段落标记。
它可以是当前选择所表示的区域,也可以表示当前选择之外的区域。
与所选内容总是可见不同,它在文档中是不可见的。
它不随文档保存,仅存在于代码运行期间。
在向一个范围的末尾插入文本时,Word会自动扩展该范围以包含插入的文本。
(5)Bookmark对象:
文档中的Microsoft.Office.Interop.Word.Bookmark是控制文档中的文本的最容易的方法,在这一点上它类似于Windows窗体上的文本框控件。
Microsoft.Office.Interop.Word.Bookmark对象表示文档中同时具有起始位置和结束位置的连续区域。
书签用于在文档中标记一个位置,或者用作文档中的文本容器。
Microsoft.Office.Interop.Word.Bookmark对象可以小到只有一个插入点,也可以大到整篇文档。
Microsoft.Office.Interop.Word.Bookmark与Range对象的不同之处在于它具有以下特点:
可以在设计时命名书签。
Microsoft.Office.Interop.Word.Bookmark对象随文档一起保存,因此当代码停止运行或文档关闭时,它不会被删除。
书签可以隐藏或变得可见,方法是将View对象的ShowBookmarks属性设置为True或False。
2.2.2.2本课题中的OfficeWord开发技术应用
本课题的关键是在于对word文档的内容识别和格式转化。
我们已经知道,从Word2003开始,微软已经为word文档定义了标准的XML格式,目的就在于通过xml对文档格式进行规范。
虽然可以通过手工操作完成对文档的转换,但这样的过程过于繁琐。
所以,本课题便是通过WordAPI提供的类和方法,形成一套自动操作的方法,完成普通论文向多维论文的格式的自动转换。
本课题的重点在于熟悉和运用好WordAPI,通过书签对各关键字和各种媒体内容进行自动识别和标记,然后归纳到已经规范好的多维论文文档结构当中。
2.3OpenXML技术
2.3.1OpenXML技术介绍
2.3.1.1XML简介
XML全称EXtensibleMarkupLanguage,翻译为可扩展置标语言,可扩展标记语言或可延伸标示语言,是一种置标语言。
置标指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种信息的文章等。
扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用[8]。
XML与Access,Oracle和SQLServer等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:
数据索引、排序、查找、相关一致性等,XML仅仅是展示数据。
事实上XML与其他数据表现形式最大的不同是:
他极其简单。
这是一个看上去有点琐细的优点,但正是这点使XML与众不同。
XML的简单使其易于在任何应用程序中读写数据,这使XML很快成为数据交换的唯一公共语言,虽然不同的应用软件也支持其它的数据交换格式,但不久之后他们都将支持XML,那就意味着程序可以更容易的与Windows、MacOS,Linux以及其他平台下产生的信息结合,然后可以很容易加载XML数据到程序中并分析他,并以XML格式输出结果。
XML的主要用途有:
(1)丰富文件自定文件描述并使其更丰富:
属于文件为主的XML技术应用;
标记是用来定义一块数据应该如何呈现;
(2)解释数据:
描述其它文件或在线信息:
属于数据为主的XML技术应用
标记是用来说明一块资料的意义
(3)组态档案(ConfigurationFiles)-描述软件的组态参数
2.3.1.2OpenXML
MicrosoftWord在当前使用中是占有巨大优势的文字处理器,这使得Word专用的档案格式Word文件(.doc)成为事实上最通用的标准[9]。
Word文件格式的详细资料并不对外公开。
Word文件格式不只一种,因为随Word软件本身的更新,文件格式也会或多或少的改版,新版的格式不一定能被旧版的程序读取(大致上是因为旧版并未内建支援新版格式的能力)。
微软已经详细公布Word97的DOC格式,但是较新的版本资料目前仍未公开,只有公司内部、政府与研究机构能够获知。
业界传闻说某些Word文件格式的特性甚至连微软自己都不清楚。
其他与Word竞争的办公室作业软件,都必须支援事实上最通用的Word专用的档案格式。
因为Word文件格式的详细资料并不对外公开,通常这种兼容性是藉由逆向工程来达成。
许多文字处理器都有汇出、汇入Word档案专用的转换工具,譬如AbiWord或OpenOffice.org。
(参照文本编辑器当中关于其他竞争软件的说明。
)ApacheJakartaPOI是一个开放原始码的Java数据库,其主要目标是存取Word的二进制文件格式。
不久前,微软自己也提供了检视器,能够不用Word程序就检视Word文件。
例:
WordViewer2003。
Word97到Word2003之前的Word文件格式都是二进制文件格式。
不久以前,微软声明他们接下来将以XML为基础的档案格式作为他们办公室套装软件的格式。
Word2003提供WordprocessingML的选项。
这是一种公开的XML档案格式,由丹麦政府等机构背书支持。
Word2003的专业版能够直接处理非微软的档案规格,功能的强大是微软形成了对市场的垄断。
目前,微软已经推出了Office2007系列。
同时向开发人员公布了自己定义的XML格式,OpenXML作为自己产品的文档格式。
该种格式兼容了word2003和word2007。
在以前的Office版本当中,开发人员如果希望管理一个Office文档的内容,那么他们需要了解如何根据这种二进制文件定义的存储结构,读取和写入数据。
这种过程是非常复杂的,因为Office的二进制文件被设计为主要由Office应用程序访问。
应用程序内存内的结构反应的格式都可以运行在内存和硬盘比较低的计算机当中。
另外,不使用Office应用程序而对Office二进制文件进行程序化的修改,被认为是文件损坏的主要原因。
这使得许多开发人员不敢去修改Office二进制文件。
ZIP被选择为OfficeOpenXML格式的包格式,因为它是一种理解良好的工业标准。
现在,有许多的工具都可以处理ZIP格式,而且使用ZIP提供一种灵活的,模块化的结构,允许对于功能进行扩展[10]。
因此,您可以使用任何可以处理工业标准的ZIP文件的工具,来访问2007Mi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 WordXML 多维 论文 自动 抽取 组件 设计 毕业设计