最新版图像检索技术研究毕业论文设计.docx
- 文档编号:6001888
- 上传时间:2023-01-02
- 格式:DOCX
- 页数:28
- 大小:471.93KB
最新版图像检索技术研究毕业论文设计.docx
《最新版图像检索技术研究毕业论文设计.docx》由会员分享,可在线阅读,更多相关《最新版图像检索技术研究毕业论文设计.docx(28页珍藏版)》请在冰豆网上搜索。
最新版图像检索技术研究毕业论文设计
优秀论文审核通过
未经允许切勿外传
毕业论文
图像检索技术研究
摘要
在网络和多媒体技术越来越发达的今天,信息检索技术成了现在计算机领域的重要内容,而图像检索技术正是这其中的重要内容之一。
网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为图像检索技术的继续研究提供条件。
以此同时,随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。
在实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料,是信息检索中一个重要的方面。
于是各种基于Web的图像检索系统应运而生。
它们采用不同的工作方式,极大地方便了用户对网上图像进行检索。
本文首先介绍各种图像检索技术的工作原理、研究现状、相关图像检索引擎与发展趋势;然后,对几种比较热门的图像检索算法进行研究和对比。
关键字:
图像检索检索引擎文本处理信息检索相似度相关反馈
1前言1
1.1课题来源1
1.2现有的图像检索技术2
1.2.1检索引擎的工作原理2
1.2.2图像检索引擎的检索途径3
1.2.3对几个基本引擎的分析4
1.2.4检索引擎的基本要点5
1.3图像检索的发展方向6
2基于颜色的图像检索7
2.1颜色特征提取7
2.2相似度计算10
2.3实验结果10
3基于纹理的图像检索10
3.1纹理特征提取10
3.2 相似度计算13
3.3实验结果13
4综合颜色和纹理特征的图像检索14
4.1综合特征检索的思想14
4.2相关反馈15
4.3实验结果及结论15
5基于WEB的图像检索17
5.1文本与图像之间的关系17
5.1.1表示图像内容的文本标记17
5.1.2文本的权值比较18
5.2图像信息检索18
5.2.1检索模型与相似度18
5.2.2分词技术和匹配方法20
5.3检索反馈22
5.4实验结果24
6总结25
参考文献27
Abstract28
致谢29
仲恺农业工程学院毕业论文(设计)成绩评定表30
1前言
1.1课题来源
据统计,人类接受的外部信息,70%以上来自视觉,图像作为一种内容丰富,表现直观的多媒体信息被大量广泛地使用,如何有效管理、检索图像信息成为迫切需要解决的问题。
传统的基于文本的检索无法满足海量环境下多媒体信息库的检索要求。
为了克服基于文本方法的局限性,出现了基于内容的图像检索。
随着多媒体技术及Internet网络的迅速发展,图像来源不断扩大,大容量高速存储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越多,图像信息资源的管理和检索也就显得越来越重要。
但由于Internet本身结构上、管理上的问题,想要在Internet准确、快速、全面地找到自己所想要的图像,却变成了件非常不容易的事。
由于Internet现有的问题:
内容没有结构;网上信息量庞大且还在不断的增加。
因此,网络产生了检索引擎。
虽然这些给网络用户提供了不少的帮助,但由于偏离准确、快速、全面地检索自己所要的图像还相当遥远,所以对图像检索还要作很大的研究。
根据国内外现有的检索引擎和国际上的有关研究小组的种种资料表明,现有的网络资源和检索引擎有如下特点:
(1)索引的数据种类丰富,如文字、图像、声音等多媒体。
数据的存取协议也是多种多样的,如HTTP、FTP、News、Gopher等;
(2)索引数据量大,以致不可能有某个数据库能包括整个Internet的索引,目前最大的检索引擎,其中的索引也只不过覆盖了Internet的一小部分;
(3)资源消耗太大,系统需要将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,增加被检索结点的负担。
另外由于现有的检索引擎一般是集中式的,所以检索引擎服务器本身的硬件配置也极高,才能处理庞大的数据量和及时地响应用户的查询请求;
(4)不能有效解决索引失效问题,很多时候,检索引擎会返回无效的查询结果;
(5)各检索工具各行其事,不能相互协作,在一定意义上讲是一种资源的浪费。
二十一世纪是一个多元化的信息社会,对图像的需求将是前所未有的巨大的,图像数据库也将得到长足的发展。
因此,图像检索系统具有广阔的应用前景。
1.2现有的图像检索技术
近年来随着用户对网上图像检索要求的不断增长,各种图像检索引擎应运而生,它们各自以不同的工作方式为用户提供各种检索途径,使网上图像信息的检索变得非常简单,尽管还不很完善,却已经可以满足用户的大多数要求。
1.2.1检索引擎的工作原理
最基本的检索引擎的结构,是由Spider不停地从Web网上收集数据,存放在检索引擎的数据库中。
用户通过检索引擎服务器上的Web接口,提出检索请求,WebServer通过CGI或其它技术访问数据库,并将用户的检索请求转换成相应的数据存取语句,送给数据库引擎处理,并把查询结果通过网页显示给用户。
网络检索的基本原理是通过网络机器人定期在web网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本地的数据库来得到。
一般来说网络信息检索的实现机制一般有两种:
一是通过手工方式对网页进行索引,它的缺点是Web的覆盖率比较低,同时不能保证最新的信息。
查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的;二是对网页进行自动的索引,这种能实现自动的文档分类,实际上采用了信息提取的技术。
但是在分类准确性上可能不如手工分类。
在现在所有运行的检索工具来说,一般都有一个Robot定期的访问一些站点,来检查这些站点的变化,同时查找新的站点。
一般站点有一个robot.txt文件用来说明服务器不希望Robot访问的区域,Robot都必须遵守这个规定。
如果是自动索引的话,Robot在得到页面以后,需要对该页面根据其内容进行索引,根据它的关键字的情况把它归到某一类中。
页面的信息是通过元数据的形式保存的,典型的元数据包括标题、IP地址、一个该页面的简要的介绍,关键字或者是索引短语、文件的大小和最后的更新的日期。
尽管元数据有一定的标准,但是很多站点都采用自己的模板。
文档提取机制和索引策略对Web检索引擎的有效性有很大的关系。
高级的检索选项一般包括:
布尔方法或者是短语匹配和自然语言处理。
一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。
最相关的放在最前面。
每一个提取出来的文档的元数据被显示给用户。
同时包括该文档所在的URL地址。
另外有一些关于某一个主题的专门的引擎,它们只对某一个主题的内容进行检索和处理,这样信息的取全率和精度相对就比较高。
目前,图像检索引擎主要通过以下两种方法识别图像:
(1)自动查找图像文件。
通过两个HTML标签,即IMGSRC和HREF来检测是否存在可显示的图像文件,IMGSRC表示“显示下面的图像文件”,导向的是嵌入式图像;而HREF则表示“下面是一个链接”,导向的是被链接的图像。
检索引擎通过检查文件扩展名来判断其导向的是否为图像文件,如果文件扩展名是.gif或.jpg,即是一个可显示的图像。
(2)人工干预找出图像。
进行分类,由人工对网上的图像及站点进行选择。
这种方法可以产生准确的查询体系,但劳动强度太大,因此要限制处理图像的数量。
由于图像不同于文本,需要人们按照各自的理解来说明其蕴含的意义,因此图像检索比文本的查询和匹配要困难得多。
1.2.2图像检索引擎的检索途径
1.关键词检索
传统的图像检索技术是基于关键字的精确匹配检索,系统内的图像用关键字标识,检索线索是与标识相一致的关键字,即输入是关键字,输出是图像。
它又包括两种途径:
(1)基于图像外部信息进行检索。
即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索,这是目前图像检索引擎采用最多的方法。
在找出图像文件后,图像检索引擎通过查看文件名或路径名确定文件内容,也可以通过查看图像的标题来匹配检索词。
(2)基于手工标注的检索。
手工对图像的内容(如物体、背景、颜色等)进行描述并分类,将其标注为一系列关键字,并建立索引。
检索时,将主要在这些描述词中检索用户输入的关键字。
这种查询方式是比较准确的,一般可以获得较好的查准率,但需人工参与,劳动强度大,因而限制了可处理的图像数量。
另外,由于图像所包含的信息量庞大,不同用户对于同一张图像的看法又不尽相同,导致了对图像的标注缺乏统一标准。
2.图像可视属性的检索
而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,其输入为用户要查找的图像的大致特征描述或示例,通过一定相似性匹配规则,输出为与之具有相近特征的图像,按相似程度排列,供用户选择,从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题,交由系统去解决。
这是一种基于图像本身特征层次的检索,特别适用于检索目标明确的查询要求,但目前这种较成熟的检索技术主要应用于图像数据库的检索。
在图像检索引擎中应用这种检索技术还有一定困难,但己有部分图像检索引擎尝试了这种检索方法。
1.2.3对几个基本引擎的分析
(1)InfoSeek是一个简单但是功能强大的索引,它的一个优点是有一个面向主题检索的可扩展的分类。
你可以把你的检索短语和相似的分类目录的主题短语相互参照,而那些主题短语会自动加到你的查询中去。
使你的检索有更好的主题相关性。
同时它也支持对图像的查询。
它能够漫游Web,Usenet,UsenetFAQs等等。
不支持布尔操作,但是可以使用符号"+"和"-"。
(2)AltaVista是一个大容量的,基于Robot索引的SearchEngine。
它能帮你在WWW网上检索你所需要的网页,新闻组,图像,视频音频片段。
AltaVista还支持多种语言和简单的自然语言查询。
AltaVista覆盖面约为WWW网上可索引的网页的30%
(3)Scour成立于1998年,自称是第一个基于web的多媒体检索引擎。
虽严格讲,它并非是一个图像检索引擎,但可以将检索限制在图像检索上。
它的工作原理是在文件名、路径名或ALT标签中检索检索词。
主要使用关键词检索,可以用"+"或"-"来增加或排除关键词,使用尽可能少的关键词会更有效。
在高级检索中,可以将检索结果图像限制在GIF、BMP、JPEG等格式中。
检索结果显示简图、图像类型(如GIF、BMP)、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等,并同时给出图像文件的URL和源站点的URL。
主要缺陷是标引深度不足,查准率较低,但查全率较好。
(4)这是由NCRTEC组织开发的一个"真正人工建立的完全的关键词式索引"。
AmazingPictureMachine后面的教师负责选择图像丰富的站点,然后对每幅选定的图像内容进行描述,给出关键词。
因此它的最大特点就是人工干预,关键词检索是主要的检索手段。
AmazingPictureMachine的检索结果将显示一个简短的标题、有关图像的说明(如彩色或黑白)、文件的大小、文件类型及象素多少等,但不显示简图。
单击该标题可得到原图像,但需由该URL回溯才能找出源站点。
由于人工干预检索过程,它的查准率极好,但这也限制了它的查全率。
它的检索范围很有限,只包括web上人工选择的部分站点。
(5)Lycos对所收录的图像进行了详尽的内容描述,并支持短语检索,从而使其查准率大大提高。
它根据文件扩展名识别图像,在描述词、文件名、目录名或ALT字段中查询检索词。
结果显示的信息极为丰富,包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。
点击简图将得到原图及更多的信息,如著作权人和更多的相关图像。
比较而言它的检索效果很好,速度也很快。
1.2.4检索引擎的基本要点
(1)索引文档的容量:
现在最大的检索引擎可能包含了超过个链接,但这也只是整个Web网上的一小部分。
因为收集资料的Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分Web网页和这些“已知”的网页有连接;现在还没有一个检索引擎能够随网页内容的更新比较及时地更新索引;
(2)覆盖面:
地理覆盖面和主题覆盖面;
(3)索引更新频率:
不同的检索引擎,索引更新频率相差很大,有的是几周,有的是一年。
索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,另一种是同一页多少时间才被检查一次,有必要时更新索引。
有的检索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;
(4)采集过程:
采集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容的覆盖面有利,深度优先算法有助于提供更多的细节资料;
(5)索引算法:
有的检索引擎只处理元标记和一小部分文档内容,而有一些检索引擎则是对全文进行索引;
(6)结果显示:
有的检索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页的内容,更新日期等;
(7)查询算法:
一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的检索引擎还提供指定属性的查询,比如可以指定对网页的作者、主题进行查询。
另外有的检索引擎还采用了相关度反馈、概念查询等算法;
(8)用户界面:
很多检索引擎都提供了简单查询和高级查询两个界面。
并且提供了必要的帮助和范例。
1.3图像检索的发展方向
图像检索技术给用户提供了一个在互联网上检索感兴趣图像资源的有效手段,基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。
(1)基于文本的检索研究
立足于文本,对图像进行检索。
试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。
如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。
但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。
(2)基于内容的检索研究
立足于图像内容,对图像进行分析和检索。
相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。
不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。
(3)基于文本内容结合的检索研究
结合文本和内容,二者虽侧重不同但却互相补充。
如果能将二者结合起来取长补短,则网络的图像检索技术必有新的进展。
已有的图像检索引擎在信息的自动加工和标引方面都有待提高,需要开发出计算机自动识别和标引图像的算法和技术,以完善现有的检索功能,并与已有的成熟的图像库检索技术相结合,这是今后应该研究的一个课题。
而且,图像库检索技术也应面向网络,利用网络技术进行改造,提供新的WWW访问界面代替原来的应用系统界面。
同时将巨大的图像库资源利用网络实现共享。
(4)对基于内容编码技术的研究
可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。
目前,国际上还没有通用的基于内容的编码标准。
20世纪90年代初,国际上就开始了对基于内容的图像信息检索方面的研究。
从基本的颜色检索,到综合利用多种图像特征进行检索,大量原型系统已经推出,其中,部分已投入到实际应用中以检验其有效性。
同时,MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中,即将成为国际标准中的一员。
因此,应尽快对MPEG-7标准进行研究,分析其编码的实质,在此基础上进一步研究基于内容检索的系统,使我国基于内容的图像检索尽快走向实际应用阶段。
(5)对用户查询接口的研究
这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。
现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,人在系统中是主动的。
除了提供示例和描绘查询基本接口之外,用户的查询接口应提供丰富的交互能力,使用户在主动的交互过程中表达对图像语义的感知,调整查询参数及其组合,最终获得满意的查询结果。
用户的查询接口应该是直观易用的,底层的特征选择对用户是透明的。
这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量,如何从交互过程中获取用户的内容感知,以便选择合适的检索特征等问题。
一个优秀的检索引擎必须处理以下几个问题:
(1)网页的分类
(2)自然语言的处理
(3)检索策略的调度和协作
(4)面向特定用户的检索。
因此,现在有很多的网络检索工具,也就是说检索引擎采用了智能的检索手段来增强它的检索能力,而图片检索正是其中的一大块内容。
随着网上多媒体的广泛应用,对图像的检索需求将会越来越迫切。
未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。
随着多媒体信息处理技术的日益发展和深化,图像信息的加工、处理和检索标准的出台,网上的图像检索技术将会日趋完善,而图像检索引擎也将成为Internet上的新宠。
2基于颜色的图像检索
2.1颜色特征提取
颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。
一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。
由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。
另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。
颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。
此外,与其它的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的稳定性。
为了正确地使用颜色,需要建立颜色模型。
颜色特征是图像最直观而明显的特征,一般采用直方图来描述。
颜色直方图是表示图像中颜色分布的一种方法,它的横轴表示颜色等级,纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例,直方图颜色空间中的每一个刻度表示了颜色空间中的一种颜色。
采用直方图计算图像间的相似性比较简单,但它不能反映图像中对象的空间特征。
在颜色布局描述符中,对分割好的8×8的图像取每一块图像的颜色平均值,形成一个颜色平均值矩阵,然后对其用二维离散余弦进行变换,取低频分量作为颜色特征。
考虑到本文所选的测试图片都是bmp图片,以及减少计算量,提高检索速度的因素,本文的颜色布局描述符的提取方法如下:
(1)将整幅图像分成4×4块,计算每一块中所有象素RGB三个颜色通道的颜色平均值,并以此作为该块的代表颜色(主颜色)。
(2)将各块的颜色平均值进行离散余弦变换(DCT),得到DCT系数矩阵。
DCT是一种分离的变换,是国际静止图像压缩标准JPEG的基础。
由于大多数图像的高频分量较小,相应于图像高频分量的系数经常为零,加上人眼对高频成分的失真不太敏感,所以可用更粗的量化。
因此,在一般检索中可以利用部分DCT系数作为特征向量。
(3)对DCT系数矩阵进行之字形扫描和量化,得到DCT系数。
(4)对于R、G、B三个通道,分别从DCT系数中取出4个低频分量,形成12个参数,共同构成该图像的颜色特征向量。
图1为颜色特征提取的流程图。
图1颜色特征提取流程图
2.2相似度计算
国际标准MPEG-7中建议的颜色布局描述符在匹配时使用欧式距离公式,因此在本算法中匹配时也使用欧式距离公式,即为:
其中,各个分量的W为权重,Ri,Gi,Bi分别为各个分量的第i(i=0,1,2,3)个DCT系数。
2.3实验结果
本文实验的图库是从标准测试图像库Corel图像库中选取的,包括由海滩、恐龙、大象、马、花等组成的120副图片,得到利用颜色特征检索图片的查准率和查全率为下表。
表1利用颜色特征的结果
类型
利用颜色
特征的查准率
利用颜色特征的查全率
海滩
0.583
0.350
恐龙
0.500
0.300
大象
0.417
0.250
马
0.583
0.583
雪景
0.167
0.100
花
0.500
0.300
3基于纹理的图像检索
3.1纹理特征提取
图像可以看成是不同纹理区域的组合,纹理通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量。
纹理特征可用来对图像中的空间信息进行一定程度的定量描述。
在国际标准MPEG-7中建议了一种纹理特征描述符——边缘直方图。
边缘直方图是基于图像边缘的统计特征,能较好地反映目标的边缘和纹理特征,而且运算速度较高。
因此在本文中选取边缘直方图来提取图像的纹理特征。
下面介绍提取的具体步骤:
(1)将bmp图像转换成灰度图。
每个象素的灰度值可以根据RGB颜色分量按下列公式计算得到:
Gray(i,j)=0.11*R(i,j)+0.59*G(i,j)+0.3*B(i,j)。
(2)将整幅图像分成4×4块。
(3)分别对16块116子图像进行sobel边缘算子运算,得到边缘图像。
(4)统计子图像中的边缘直方图,该直方图包括4个直方条。
(横轴为0,1,2,3四个边缘方向,纵轴为该方向上的象素数占子图像总的象素数的比率)
(5)将16个子图像的直方条综合起来,得到包括64个直方条的整幅图像的边缘直方图。
图2为图像纹理特征流程图。
图2图像纹理特征流程图
下面介绍用sobel算子提取图像边缘的具体算法:
首先介绍一下sobel算法中用到的4个核模板:
图3sobel算法模板
图4sobel算法的边缘方向编号
(1)将图像中的象素点的灰度值分别与以上四个方向的核模板相乘。
(2)比较四个乘积数值,取最大的那个数值,作为该象素点的新的灰度值。
(3)取适当的阈值T,若新的灰度值≥T,则认为该象素点为边缘点。
通过以上算法提取出图像的边缘。
3.2 相似度计算
仍然采用欧式距离公式作为相似度的计算公式,如下:
其中;Qi,Di为图像Q,D在边缘直方图中对应的第i个直方条的值。
3.3实验结果
实验平台如2.3所述,得出结果如下表。
表2利用纹理特征的检索结果
类型
利用纹理特征查准率
利用纹理特征查全率
海滩
0.500
0.300
恐龙
1.000
0.600
大象
0.333
0.150
马
0.833
0.833
雪景
0.250
0.150
花
0.667
0.400
4综合颜色和纹理特征的图像检索
4.1综合特征检索的思想
图5
对于以上三幅图像,假设它们是原图像的14图像(其余34图像与此14图像相同),如果按照本文中的利用颜色特征进行检索,那么将得出完全相似的结论,但是实际上这三幅图像给人的感觉是完全不同的。
因此说单一的依靠提取一种特征来进行检索,得出的结果往往是不尽如人意的。
在本文中,利用颜色布局描述符结合了颜色特征和空间关系的特点;利用边缘直方图作为纹理特征弥补了颜色特征缺乏空间分布信息的不足,考虑到图像中的边缘多对应目标的边界或轮廓,边缘直方图描述符在一定程度上还反映了图像中目标的形状信息。
因此这两种特征描述符达到了不同特征的优势互补的效果,而且,这两种特征在提取的过程中都归一化到了[0,1]区间,可以综合在一起进行图像检索。
设颜色特征的权重为Wc,纹理特征权重为Wt,并且Wc+Wt=1,则综合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新版 图像 检索 技术研究 毕业论文 设计