基于文本的Web图片搜索引擎的研究Word文档格式.docx
- 文档编号:20821048
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:9
- 大小:30.36KB
基于文本的Web图片搜索引擎的研究Word文档格式.docx
《基于文本的Web图片搜索引擎的研究Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于文本的Web图片搜索引擎的研究Word文档格式.docx(9页珍藏版)》请在冰豆网上搜索。
3)通过统计分析总结出HTML文件中表现出的一些潜在规律,比如JPG和GIF的区别、<
标记的不同意义以及图片引用次数的不同意义。
得到如下结论:
JPG重要性大于GIF;
<
标记来源图片的重要性大于<
标记的图片;
引用次数越高的图片重要性越高,而<
引用次数高的图片需要经过过滤才能保证重要性较高。
4)粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。
5)设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。
关键词:
Web图片搜索引擎图像检索基于文本基于内容信息提取
Abstract
Inthethesis,weformaschemetodesignalarge-scaleWebimagesearchenginesystemusingmainlytext-basedtechnology.
WeintroduceandresearchaseriesoftechniquesrelatedtoWebimagesearchengine,suchascrawling,relevanceranking(VSMandLSI),informationextractionandindexing.Thosetechniqueswillbeusedinoursystemdesign.
WeconcentrateonhowtoextractinformationrelevanttoimagesfromHTMLdocumentsmoreeffectivelyandprecisely.Accordingtoexperimentsandanalysisonrealdata,weproposeseveralkeytechniquesasbelowfordesigningthesystem:
1)WeanalyzecarefullythestructureofHTMLcomponentsincluding<
tag,<
tag,titleofwebpage,anchortextofwebpage,URLofimage,<
tag,surroundingtextof<
tagetc.Andsumupnineextractionpatternstofetchinformationrelevanttoimages.Wealsoresearchthreeextractingmethods:
DOMbasedmethod,StringbasedmethodandWrapperbasedmethod.
2)Weproposesomemethodstofilteruselessimagesaccordingtofilesize,widthandheightofimagesandreferredcountofimagesby<
tags.
3)ThroughstatisticsofmassofHTMLdocuments,Weconcludesomelatentrules,suchasthedifferencebetweenJPGandGIF,thedifferencebetween<
tagand<
tag,thedifferencebetweendifferentreferredcountofimages.
4)WeSimplyresearchtheapplicationmethodofLSItointegratehigh-levelandlow-levelinformationofimages.
5)Wedesignandimplementatext-basedWebimagesearchengine.Theglobalstructureofoursystemandrelationsofthecomponentsofsystemareintroduced.Somecomponentsaredetailedinfunctionandimplementation.Finallyasimpleevaluationaboutsearchingeffectandperformanceisgiven.
Keywords:
Webimagesearchengine,text-based,content-based,informationextraction
目录
第1章引言1
1.1背景1
1.2图片检索系统概述3
1.2.1系统应用领域3
1.2.2用户检索方式3
1.2.3系统评价4
1.3研究现状5
1.4现有图片检索系统简介5
1.5本文的主要工作8
第2章相关技术10
2.1网页抓取技术10
2.1.1基本原理10
2.1.2大型Spider的问题10
2.2相关性排序技术11
2.2.1VSM12
2.2.2VSM的改良:
LSI13
2.3信息提取技术15
2.3.1基于内容的提取技术15
2.3.2基于文本的提取技术17
2.4信息索引技术17
2.4.1索引方式18
2.4.2提高索引的性能19
2.5其它相关技术20
2.6本章小结21
第3章Web上的图片信息提取22
3.1HTML简介22
3.2图片信息提取模式23
3.3HTML信息提取方法27
3.3.1HTML文档的规范化27
3.3.2基于DOM的提取方法27
3.3.3基于字符串的提取方法28
3.3.4基于Wrapper的提取方法28
3.4无用图片过滤30
3.5挖掘HTML的潜在规律31
3.5.1GIF和JPG的区别31
3.5.2<
的不同意义32
3.5.3图片引用次数的分析32
3.6基于文本和基于内容的整合模式34
3.7本章小结37
第4章Web图片搜索引擎的设计和实现38
4.1系统简介38
4.2系统详细工作流程40
4.2.1获取网页40
4.2.2提取信息40
4.2.3图片抓取和死链检查42
4.2.4生成缩略图42
4.2.5建立索引43
4.2.6提供查询47
4.3系统评测50
4.4本章小结51
第5章总结和展望52
5.1主要工作总结52
5.2技术发展方向52
参考文献54
致谢58
图表
图表1网页数及网页字节数情况2
图表2近三年中国网页数对比2
图表3网页的内容分类情况(按多媒体形式)2
图表4关于GIF和JPG的重要性调查31
图表5不同来源标记的图片统计32
图表6不同来源标记的引用统计33
图表7不同来源标记的统计折线图33
图表8系统总体结构图38
图表9系统工作过程39
图表10网页库访问模式40
图表11图片内容重复百分比统计43
图表12建索引流程图46
图表13内容相同图片的拉链结构47
图表14查询过程47
图表15查询线程流程图49
第1章引言
1.1背景
目前的Internet应用已经取得了长足的发展,随着网络带宽和终端计算能力的不断增强,图片被越来越多的应用于内容的表达和信息的承载,特别是在Web的应用上更是不可或缺。
Web已经成为一个巨大的、分布的、动态的、快速增长的资源库。
然而,Internet本身是一个极度分散的系统,数以亿计的图片分布在Internet的各个角落,人工寻找并获取需要的图片已经变得越来越困难,因此,如何通过自动化的手段有效的获取和再利用这些图片资源成为信息共享的一个重要课题。
图片的再利用问题涉及到图片信息的收集和检索问题。
图片的信息是指图片的内容所表征的意义,这种的信息承载方式与传统的文本的信息是不一样的。
由于文本的直观性和简单性,文本的信息即包含于本身;
而图片的信息可以通过图片本身的内容传达出来,也可以通过相关文字的描述传达出来,于是图片便有了双重的信息载体。
因而,图片在信息的获取上便有了不同于文本的技术。
按照图片信息来源的载体的不同,图片信息的获取技术被分为两大类:
基于内容和基于文本。
基于内容的技术是对图片的内容本身(像素)进行分析和检索,而基于文本的技术利用图片的相关文字信息作为分析对象,并提供类似于传统文本检索的工作方式。
Internet的边缘化特点使得信息组织非常自由化,大量的图片文件被按照不同的方式,不同的风格组织到不同的地方。
文字和图片之间几乎是可以按照完全随意的方式自由安置。
但是统计的结果显示,大量的组织方式具有某些共同的特点,这些特点符合人类获取信息的习惯。
这就为提供一个通用的信息提取框架提供了可能。
在Internet上,通常图片和文本被有机的组织在一起,最常见的组织形式就是HTML网页,于是通过HTML挖掘可以获取到大量的关于图片的信息。
HTML网页是Web上应用最广泛的信息组织方式,是搜索引擎获取信息的最主要来源。
Internet上HTML网页数量及其所包含的多媒体资源相当丰富。
根据CNNIC的《2003中国互联网络信息资源数量调查报告》[1]显示(截至到2003年12月31日):
网页数
全国网页总数
311,864,590个
其中:
静态网页数
226,725,557个
动态网页数
85,139,033个
静动态网页数比例
2.66:
1
平均每个网站的网页数
523.7个
网页字节数
全国网页总字节数
6,059,431,526KB
每个网页平均字节数
19.43KB
平均每个网站的网页字节数
10,174.51KB
图表1网页数及网页字节数情况
图表2近三年中国网页数对比
图像
97.9%
音频
0.5%
视频
1.6%
图表3网页的内容分类情况(按多媒体形式)
从以上统计数字可以看到,目前国内的Web信息资源数量已经相当可观,并且随着IT业在2003年的逐渐复苏,网页数量比2002年增长了一倍。
网络上的多媒体内容绝大部分以图像的形式存在,这对于图片搜索引擎的资源获取无疑具有相当的价值。
Web搜索引擎技术已经被广泛的引用到Internet上,每天要抓取海量的HTML网页,这是一个宝贵的资源库,但目前Web搜索基本上只利用到其中的文本信息。
如果充分的挖掘资源库中的潜在价值,可以建构出很多增值的搜索系统,比如图片搜索,mp3搜索,Flash搜索等等。
因此,本文的切入点就是如何有效的利用这些HTML网页来构建Web图片搜索引擎。
1.2图片检索系统概述
1.2.1系统应用领域
随着图片使用的日趋广泛和图片搜索技术的不断发展,图片检索系统的应用范围变得越来越广。
目前使用最广泛的是通用Web图片搜索引擎,比如Google图片搜索,它面向通用领域的用户提供服务。
除此之外,有大量的专用领域使用到了图片检索,比较常见的领域有:
医药领域。
许多的医学和健康相关的专业需要使用例如X光、扫描影像之类的一些可视信息资料,用于诊断和检测疾病。
图片检索技术能够有效的用于这类信息的表示、存储、传输和分析,针对该领域的研究主要集中在图像处理上,例如边界或者特征检测,可用于跟踪肿瘤的生长等。
该领域已经有成功的系统使用案例。
图形设计领域。
对于已有的设计的重用,可以为该领域的工作者提供大量的素材和灵感,图片检索系统可以为这些工作提供大量帮助,同时,对于用户寻找特定要求的作品也提供了很大的便利。
出版领域。
出版社、报社、杂志社等机构对于图片的需求是相当多的,基本上都有自己的图片库,传统方式利用多种归类方式来进行存储和查找。
该领域的工作者需要花费大量的时间来查找和挑选合适的图片,利用图片检索系统能够提供有效的帮助。
其它的一些领域还包括建筑设计、天文学、地理学、历史研究、犯罪取证等。
1.2.2用户检索方式
在检索方式上,图片检索相对于网页检索来说,有很大的不同。
目前的网页检索系统几乎仅有关键字查询一种,因为当前考虑范围内用于网页内容的唯一描述只有文字。
而图片可以有相关的文字描述,同时图片本身还具有自描述性(内容本身提供了语义信息)。
因此,图片通常具有多种检索方式,从用户检索的角度看,可以分为如下几类:
◆目录式检索:
yahoo的图片搜索集成了其网页搜索的特点,将图片进行分类,用户按照分类结构逐渐细化查询范围。
目录式检索方式经常需要人工来进行大部分的分类工作,因此代价是相当高的。
◆关键字查询:
目前使用中的大型图片搜索引擎使用的方式。
用户给出与所需的图片相关的文字,系统根据之前建立的文字到图片的匹配来查找包含有查询词的文本对应的图片。
关键字检索方式最显著的优点是其检索速度非常快,并且基于文本的索引技术已经很成熟。
信息和文字的匹配上有两种方法,一种是人工标引,一种是自动提取。
人工标引对于信息的准确度方面是效果比较好的。
但是也面临几个主要的缺点:
一是人工标引工作量太大,在海量系统中几乎是不现实的。
二是人工标引的信息主观性比较强,有时候不能恰当的反映图片的真实信息或者反映的信息不完全(后者几乎总是存在)。
自动提取方法的难点在于如何为图片提取正确的文字信息。
由于信息组织的多样化以及难于判定具体的组织方式,很难确定哪些信息是与图片相关的。
这种方法通常采用启发式规则来进行信息提取,使用比较常用的模式来获取信息,并通过无用信息过滤等技术来尽可能的提高信息的准确性。
◆实例式检索:
目前的基于内容的图片搜索引擎大多是这一类。
方法是提供一张图片实例或者由用户绘制一个大概的形状,系统根据某些可视特征去寻找在该特征上相似的图片。
这种检索方式的优势在于发现相似图片的效果比较好,缺点在于需要用户提供图片实例,这一点通常使系统变得很不友好。
虽然基于内容的检索系统可以提供一些分类信息,但也仅限于户内或者户外,风景或者人物等粒度比较大的分类。
◆属性式检索:
这种检索方式多用于小规模的专门的图片数据库,比如摄影图片库,用户可以根据作者,拍摄日期等一些图片的外在特征来进行检索。
该类数据库具有集中式管理的特点,信息往往比较规范,建立索引和检索过程都相对简单,可以使用现有的关系数据库来实现。
1.2.3系统评价
检索系统中很重要的系统评价指标是查准率(Precision)和查全率(Recall)。
查准率表示查询结果中相关的文档数所占结果文档总数的比例;
查全率表示查询到的相关文档数占整个文档集合中所有相关文档数的比例。
假设对于特定的查询,D+为整个文档集合中相关文档的数量,R为查询结果文档集合,R+为结果文档中相关文档集合,则查准率和查全率可以形式化的定义为:
查准率:
查全率:
在图片检索系统中,对于这两项指标的度量比较困难,因为对于图片与文本的相关性评价是相当主观的,基本上只能得到一个很粗略的统计结果。
除了以上两项指标以外,还有一个评价指标是性如需全文或定做各专业论文,可联系QQ2537024709
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 Web 图片 搜索引擎 研究