信息检索技能训练.docx
- 文档编号:11860287
- 上传时间:2023-04-06
- 格式:DOCX
- 页数:22
- 大小:55.76KB
信息检索技能训练.docx
《信息检索技能训练.docx》由会员分享,可在线阅读,更多相关《信息检索技能训练.docx(22页珍藏版)》请在冰豆网上搜索。
信息检索技能训练
信息检索技能训练
2012-2013第2学期
题目:
XX、谷歌搜索引擎优化分析
院(系、部):
工商管理学院信息管理教学部
学生姓名:
庞超
指导教师:
X书霞
2013年4月17日
摘要
目前,搜索引擎是大多数用户使用频率最高的网络应用程序。
最近,以提高在搜索结果中排名的搜索引擎优化是目前研究的焦点。
本文作者详细阐述了基于搜索引擎的优化策略。
通过优化的搜索引擎,方便的搜索引擎,的排名,从而提高的访问者,并实现推广的目的,为企业带来了机会,实现更多的利润。
关键字:
搜索引擎优化、优化策略、优化、SEO
Abstract
Currently,searchengineisanetworkapplicationthathasthemostofusersandhighestofusefrequency.Moreover,searchenergyoptimization(SEO)thatinordertoimprovewebsiterankinginsearchresultisthefocusrecently.Thispaperresearchersindetailthewebsiteoptimizationstrategybaseonsearchengine.Byoptimizationofthewebsitesearchengine,convenienceofsearchengine,therankofwebsite,soastoenhancethewebsitevisitorsandachievetheaimofwebsitepromotion,tobringtheopportunityforenterprise,torealizemoreprofit.
KeyWord:
searchengineoptimization、optimizationstrategy、websiteoptimization、SEO
引言
搜索引擎优化(Searchengineoptimization,简称SEO),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量以及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现形象。
而SEM(Searchenginemarketing,搜索引擎营销),则既包括了SEO,也包括了付费的商业推广优化。
本文通过详细比较XX和谷歌搜索引擎优化的方法,阐述如何提升在两大搜索引擎中的排名策略。
此外,本文还提供了一些提升在搜索引擎中排名的方法,可以在日后开发中多加注意。
1搜索引擎优化简介
1.1搜索引擎优化概念
搜索引擎优化(Searchengineoptimization,简称SEO),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量以及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现形象。
而SEM(Searchenginemarketing,搜索引擎营销),则既包括了SEO,也包括了付费的商业推广优化。
SEO自从1997年左右出现以来,逐渐分化成两类SEO行为:
一类被称为“白帽SEO”,这类SEO起到了改良和规X设计的作用,使之对搜索引擎和用户更加友好,并从中获取更多合理的流量。
搜索引擎鼓励和支持“白帽SEO”。
另一类被称为“黑帽SEO”,这类SEO行为利用和放大搜索引擎的策略缺陷(实际上完美的系统是不存在的)获取更多用户访问量,而这些更多的访问量,是以伤害用户体验为代价的,所以,面对后一种SEO行为,搜索引擎会通过一些策略进行遏制。
搜索引擎与SEO行为间是一种良性的共生关系,比如很多优质的是用Flash或者Ajax做的,搜索引擎就无法很好的爬取和索引。
建站者在了解了SEO的一些基本原理后,可以通过对的合理优化,使这些优质资源更好的发挥其检索效果,改善用户的搜索体验。
1.2国内发展趋势
总体来说,SEO在中国还属于新生事物。
2001年之前:
免费搜索引擎营销阶段,以免费分类目录登录为主要方式;
2001年中期-2003年中期:
因网络经济环境、搜索技术、收费等原因带来搜索引擎营销市场进入调整期;
2003年后期开始:
各种形式的搜索引擎广告快速发展,同时基于自然检索结果的搜索引擎优化开始受到重视;
2004年-2005年:
搜索引擎广告进入快速增长期,并且营销效果逐步为企业所认可;新的搜索引擎不断出现;
2005年开始:
垃圾SEO泛滥,严重破坏搜索引擎营销市场秩序,引起主流搜索引擎大规模清理。
相对于03、04年的混乱来说,经过了优胜劣汰的洗礼,国内SEO市场正逐渐向正规化、专业化发展,但是仍然存在着规模小、实际操作性不强等情况。
规模方面:
从事SEO行业的仍然以个人工作室和小公司为主体,同时,部分国外知名企业也开始进驻中国,竞争更为激烈。
技术方面:
由于国内缺乏学术交流,从业人员缺乏对技术的探索与追求等因素,SEO技术在国内来说仍然处于较低水平。
不过随着国外企业的到来,必将推动技术方面的升级。
市场方面:
由于算法的改进,原有的所谓优化方法已经行不通,国外正规企业的加入迫使那部分对SEO理解比较粗浅者放弃或转向正当方式。
行业得到了一定程度的净化。
Google曾对搜索引擎规则进行调整,很多SEO公司做过的从原先较好的排名消失得无影无踪。
05年以来,Google在算法方面有两个比较大的改进。
第一,调整反向的权重,加强了反向相关度的权重。
第二,“沙盒效应”。
“沙盒效应”主要是针对新,以域名正常运作时间,内容丰富与否,更新频率等作为一个决定最终排名的权重,而且占着极大的份量。
这使得原来所谓的优化方法已经不能奏效,也加长了作业的时间。
之前那种靠垃圾及堆叠关键词方式作业的SEO难以为继。
搜索引擎优化的方法有许多种。
搜索引擎优化并没有什么像外界说的那样有各种各样的方法,百变不离其宗,都是在围绕搜索引擎排名算法而进行。
但是国外对于搜索引擎算法变动比较敏感,看法也比较深刻,从而能及时做出相应对策。
而国内只能跟着国外的步伐艰难前进。
这取决于学术环境、学术气氛及业内人士对知识的追求程度等因素。
一方面,企业意识到搜索引擎优化的重要性,但又片面追求低投入、短时间、高回报;另一方面,部分从事SEO的企业或个人为了迎合客户需求,不惜作出种种承诺、降低投入来控制成本。
这很大程度上取决于从业者的立场、原则,更重要的是他们对SEO的片面理解及对搜索引擎优化认识的严重缺乏。
许多所谓的SEO认为,做优化不外乎关键词、外部从而陷入作弊误区不能自拔。
我们前面提到的Google搜索规则改变,是不是暗示着国内SEO发展畸形呢?
搜索引擎算法完善的过程是一个不断改进的过程。
当搜索引擎开发者发现自身算法缺陷时就会进行改进,发现者可能是搜索引擎的开发者本身,也可能是使用者。
两者是一种相互监督、相互促进的关系。
Google排名规则的改变并不可以说是针对中国SEO业界,更准确地说是国外从事SEO的部分人员利用了算法的缺陷使用了某种非法手段获得更好的排名,这种手法到了中国就变
得更加普遍,从而迫使Google进行算法改进。
目前国内存在的一些问题与矛盾并不能说国内SEO发展出现畸形了,而应该说是不断进化。
如果哪一天,中国从事SEO的人士能Google因其行为而改进算法,那说明我们已经在一定程度上超越国外了。
从各方面看来,SEO在中国的发展并不顺利,并且造成了一定的负面影响。
大概是从02年开始,国内陆陆续续有人涉足SEO这一领域。
经历过市场洗礼、优胜劣汰,国内SEO行业正慢慢朝着正规化、规模化方向前进。
SEO行业能否健康发展,在很大程度上取于从业者自身的技术水平与职业素质,也与广大关心及参与搜索引擎营销者息息相关。
首先,从业者应该端正作风、坚持立场、坚持原则、坚持以用户为中心。
这也是一个SEO从业者所必需的素质;其次,在学术交流方面,我们应该更积极地参与各种形式的交流与研讨,慢慢形成一种相互交流、相互促进的学术环境;最后,网络营销者应加深对搜索引擎优化行业的认知与理解,搜索引擎优化是一个长期的过程也是一个循序渐进的过程。
1.3国外发展趋势
是最早使用SEO技术的公司之一,那个时候,他们还没有估计到搜索产业的巨大增长潜力。
世纪之交,的联合创始人大卫•费罗和杨致远为了增加站点的曝光度,想办法让他们的能被互联网上其他搜索引擎发现。
通过对站点结构的优化和一些“狡猾”的代码编写技巧,他们的变得很容易被那些新用户检索到。
他们当时也没有考虑将这种服务的商业化操作,因为当时没有人清楚这样做到底是否符合商业道德,也没有可以参考的简单标准。
随着搜索引擎开始对网上的信息进行归类,企业主开始意识到站点被显示在搜索引擎上的价值了,最显而易见的是可以增加站点的访问量。
他们开始不断向搜索引擎递交他们站点的网址,为了适应搜索引擎蜘蛛(Robots)而对他们的站点做出改变。
前期的努力就集中在站点的递交,不久以后,自动向搜索引擎递交站点的程序诞生了,同样,臭名昭著的搜索引擎垃圾(Spam)也开始存在了。
1994年,、Lycos等分类目录型搜索引擎相继诞生,搜索引擎表现出网络营销价值,搜索引擎营销思想开始出现;
1995年,自动提交到搜索引擎的软件诞生,搜索引擎营销“智能化”,此后不久许多搜索引擎开始拒绝自动登录软件提交的信息;
1995-1996年,基于网页HTML代码中META标签检索的搜索引擎技术诞生。
利用META标签改善在搜索引擎中排名的技术很快成为搜索引擎营销的重要内容,这就是搜索引擎优化方法的萌芽;
1997年,搜索引擎优化与排名自动检测软件问世,网络营销人员可以据此制定针对性的搜索引擎营销策略;
1998年,“搜索引擎算法”开始关注外部,“广度”(linkpopularity)概念诞生。
SEO专家开始出现还是近5年的事情。
因为在较早的2001年,精力充沛的管理员们迅速认识到他们可以通过反复向搜索引擎递交来征服搜索结果。
然后,不幸的是,随着互联网行业的发展,对于那些不管公正不公正,道德不道德,也不管任何代价,试图将用户引向他们客户站点的SEO公司来说,搜索引擎已经变得很危险。
一些常用伎俩比如关键词堆积、门页、隐形页面或文字(比如将网页字体和背景都设置为白色),已经超出了搜索引擎可以容忍的X围。
最终导致的后果是,搜索引擎将这些乱七八糟的手法列为作弊。
他迫使那些有道德的SEO公司开始使用正确的手法去帮助他们客户的站点在搜索引擎上获得好的排名。
Google、Msn、三大搜索引擎,也开始意识到搜索引擎优化这个行业的存在,可以维持和改善搜索结果的有效性,他们需要敞开怀抱接受这个行业。
搜索引擎公司也开始跟一些成功的、有道德的SEO公司合作,建立了一系列公正的合法的优化标准。
确保信息对于使用者来说是相关的和有效的非常重要,这样做对于那些在自己站点提供相关内容的人也不存在任何偏见。
2000年,出现按点击付费(Pay-per-click)的搜索引擎关键词广告模式,搜索引擎广告诞生;
2001年,搜狐等部分中文分类目录开始收费登录,登录每年要交纳数百元到数千元不等的费用,付费搜索引擎营销开始走向主流;
2002年后半年,在网络广告市场最低潮中,搜索引擎关键词广告市场增长强劲,占2002年网络广告市场的15%,搜索引擎带动整个网络经济复苏;
2003年,出现基于内容定位的搜索引擎广告(GoogleAdSense);
2004年,搜索引擎全面引领互联网经济潮流,搜索引擎营销的价值被企业普遍接受。
2XX搜索引擎优化
2.1前期域名注册及服务器、空间租用
域名是用户对的第一印象,能否让用户迅速记住域名对发展非常重要。
注册域名时选择容易让用户记忆、容易产生信任感的域名,这样可以提高回头率,并方便用户推荐。
服务器、空间的速度和稳定性直接影响的用户体验,也会影响搜索引擎的抓取。
选择服务稳定、速度快的服务器或者空间。
2.2面向搜索引擎的建设
1.良好的收录
(1)机器可读:
XX通过一个叫做Baiduspider的程序抓取互联网上的网页,经过处理后建入索引中。
目前Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,XX无法识别。
建议使用文字而不是flash、图片、avascript等来显示重要的内容或,搜索引擎暂时无法识别Flash、图片、Javascript中的内容,这部分内容无法搜索到;仅在flash、Javascript中包含指向的网页,XX可能无法收录。
(2)结构:
应该有清晰的结构和明晰的导航,这能帮助用户快速从你的中找到自己需要的内容,也可以帮助搜索引擎快速理解中每一个网页所处的结构层次。
结构建议采用树型结构,树型结构通常分为以下三个层次:
首页——频道——文章页。
像一棵大树一样,首先有一个树干(首页),然后再是树枝(频道),最后是树叶(普通内容页)。
树型结构的扩展性更强,内容变多时,可以通过细分树枝(频道)来轻松应对。
理想的结构应该是更扁平一些,从首页到内容页的层次尽量少,这样搜索引擎处理起来,会更简单。
(3)子域名与目录的选择:
选择使用子域名还是目录来合理的分配内容,对在搜索引擎中的表现会有较大的影响。
(4)规X、简单的url:
创建具有良好描述性、规X、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取您的。
设计之初,就应该有合理的url规划。
2.良好排序
(1)涵盖网页上主要内容的title:
每个网页应该有一个独一无二的标题,切忌所有的页面都使用默认标题:
•标题要主题明确,包含这个网页中最重要的内容
•简明精练,不罗列与网页内容不相关的信息
•用户浏览通常是从左到右的,重要的内容应该放到title的靠前的位置
•使用用户所熟知的语言描述。
如果你有中、英文两种名称,尽量使用用户熟知的那一种做为标题描述
(2)良好的内容建设:
内容建设以服务核心价值为主,提供给搜索引擎收录。
的也应该是对自己核心价值有帮助的内容。
的内容应该是面向用户的,搜索引擎只是的一个普通访客,提供符合用户需求的原创内容至关重要。
写好锚文本。
资源较丰富的内容,可以以专题等更丰富的内容组织形式提供给用户,让用户以最低的成本获取所有需要的信息。
XX爬虫在进行抓取和处理时,是根据http协议规X来设置相应的逻辑的,所以请站长们也尽量参考http协议中关于返回码的含义的定义来进行设置。
了解404、301、503、403返回码的含义以及爬虫对这些返回码的处理方式。
赢得用户对的推荐。
当上的内容对用户有用时,用户会推荐给别人,这些推荐信息,都会被搜索引擎用来判断网页/价值的高低。
适当的鼓励、引导用户推荐,对在搜索引擎中的表现有很大帮助。
(3)良好的展现:
用户在XX网页搜索中搜索到网页时,title会做为最重要的内容显示在摘要中,一个主题明确的title可以帮助用户更方便地从搜索结果中判断网页上内容是否符合需求。
Metadescription是对网页内容的精练概括。
如果description描述与网页内容相符,XX会把description当做摘要的选择目标之一,一个好的description会帮助用户更方便的从搜索结果中判断网页内容是否和需求相符。
2.3运营
1目标=转化率:
从搜索引擎获取流量的最终目的是不断提高的核心价值。
从搜索引擎获得的流量,有多少能转化为的核心价值,这就是转化率。
在统计搜索引擎收益时,建议将转化率列为最重要的衡量效果指标。
2搜索引擎流量分析:
可以从跳出率、退出率、用户停留时间这三个方面来衡量网页质量。
2.4作弊与惩罚
任何利用和放大搜索引擎的策略缺陷,利用恶意手段获取与网页质量不符的排名,引起用搜索结果质量和用户搜索体验下降的行为都会被搜索引擎当做作弊行为。
作弊行为在不断的发展,我们的处理手段也在不断的变化,但始终都会维持“轻者轻罚,重者重罚”的原则:
对用户体验及搜索结果质量影响不大的,去除作弊部分获得的权值对用户体验及搜索结果质量影响严重的,去除作弊部分获得的权值并降低的权重,直至从搜索结果中彻底清理掉。
3谷歌搜索引擎优化
3.1优化结构
1优化URL结构:
使用简单易懂的URL表达内容信息。
Google擅长于抓取各类型的URL结构,即使它们异常复杂,但是花一些时间让的URL尽可能的简单,对于用户和搜索引擎都是有帮助的。
在URL中使用包含内容和结构的单词会更便于用户浏览。
2的导航功能:
基于主页来规划的导航功能。
所有都会有它的主页或者“根”页面。
这种页面往往是用户访问最多的,也是用户检索和浏览该的起始点。
除非只有屈指可数的几个页面,否则应该思考一下如何更好地将用户从主页(根页面)带到有特定内容的页面。
面包屑导航是指在网页顶端或者底部放置的一排内部,它使用户可以方便地回到上一层结构中的网页或者根页面。
通过“面包屑导航”给用户带来更多便捷。
3.2优化内容
用户很容易分辨您提供的内容是否是高质量的,并且他们也乐意于通过博客文章、社交媒体服务、电子,论坛和其他方式向自己的朋友推荐您的。
充分考虑到用户理解您的主题时可能存在的差异性,向用户提供独特的、排他性的内容。
同样写好锚文本也很重要,合适的锚文本使被内容更易于传递。
学会使用heading标签来强调重要的文字,便于用户更直观地看出这些文字的重要性。
3.3处理页面抓取
更加有效地使用robots.txt文件。
“robots.txt”文件主要用来告知搜索引擎它们是否有权抓取您的特定部分。
用这个文件来限制网页的抓取。
同时慎用Nofollow标签,如果把某一的“rel”属性设置成“nofollow”,这意味着是在向Google传达这样的信息:
不希望Google继续跟踪抓取这些特定所指向的页面,并且也不希望将自己网页的声誉传给这些指向的网页。
而且我们要学会使用它来打击垃圾留言。
4自我总结搜索引擎优化策略
4.1标签
对于Keywords和Description标签在书写的时候,可以选择将相同的内容文本在书写。
当然了还可以有意的把keywords中的关键词放在Description标签里面,特别是标签的开头位置。
(因为关键字越往前,权重越高),当然了要是重复出现就更好了。
但是得提醒一下,如果要是优化XX,那么重复的次数就别太多了,反之如果主要是针对谷歌的话,那多重复几次更好。
最后在Keywords和Description两个标签中尽量避免出现and/or/the这样的单词。
4.2关键字的比例
可能很多人都知道在一个页面中关键词的比例最好是保持在7%~8%之间,提醒大家千万不要有意的去把关键字的比例提升的太高(这里包括两个方面:
Keywords-weight(关键字在页面中出现的次数);Keywords-density(关键字和页面中其它单词的比值))。
因为咱们如果刻意的把这个比例提高,反而会被搜索引擎认为是在对其关键字(Keywords-stuffing),进而引来搜索引擎的惩罚。
当然了还有一些人在页面中关键词往往都只能达到1%~2%,其实也无所谓的,因为只要不是高于8%,首先就保证了搜索引擎不把当做作弊,那么剩下的就可以通过其他的方式来弥补。
毕竟这里在的整个优化过程中权重是有限的。
4.3蜘蛛的抓取页面的方向
作为seo应该知道,搜索引擎是从的左边到的右边,再从的上方到下方。
当然,一般情况下蜘蛛对先从中抓取的100个词的权重是最高的。
所以在这里如何书写和排列关键字就显得比较重要了。
所以要求尽量书写keywords和Description的时候在文章中应该放在中间,甚至得网页下方,总之千万别放在页面的左侧。
4.4图片的ALt属性
蜘蛛是不能直接识别图片的,所以这里就必须使用alt属性了,因为alt属性不仅能帮助蜘蛛来识别图片,同时也是蜘蛛识别网页图片的唯一方法。
同时合理的使用alt属性,也能提高一下关键词在页面的比例。
4.5关键字的位置和的锚文本
如果站点是关于某个主题的,那么主要的观点或者说关键字应该出现在文章的开始,并贯穿全文,然后在结尾结论时突出。
如果已经将导航和javascript放在页面的底部,可以在html结束之前放上相关的文本。
如果搜索引擎发现有很多使用相同的文本却指向同一个站点,那么它可能就会判断这个站点是和这个关键字相关的,那么在其它人使用这个关键字搜索时就会把这个站点作为结果之一。
通常很少有人会注意到去利用的文本。
不过要注意,这个方法不要使用在互惠交换当中,相反在互惠交换当中要使用相关但是不相同的文本来做同一个的文本。
结论
通过学习搜索引擎优化策略,我逐步的了解了优化的一些策略以及搜索引擎的一些工作原理,比如说搜索引擎的分类、搜索引擎的发展史,搜索引擎是如何抓取网页的、网络爬虫是如何工作的、网页是如何查重的、不重复抓取策略、中文分词的方法、PageRank算法等等许多。
也了解了一些国内国外的学术搜索引擎及文献库,如CNKI(中国知网)、SCI、EI等等,并且掌握了如何利用XX、谷歌的高级搜索来精确的查找自己需要的内容。
此外,在做本篇文章的同时,通过搜集资料,我也了解了更多关于基于搜索引擎的优化、推广方式,知道如何提升一个在各大搜索引擎的排名、如何判断、排除作弊的方法。
更深一步的认识到XX和谷歌的排名方式以及网络爬虫的工作原理。
参考文献
[1]Score.《PressRelease:
BaiduThirdLargestWorldwideSearchPropertybyScoreinDecember2007》Score.January24,2008
[2]ZHANGTao,LIAOLi(TheNetworkCenter,ElectricalCollege,WubeiUvin.ofTech.,Wuhan430068,China);OnOptimizationStrategyofSearchingEngineBasedonLink[J];JournalofHubeiUniversityofTechnology;2010-05
[3]116024,China2.CollegeofInformationEngineering,DalianAquaticProductCollege,Dalian116023,China);Searchengineoptimizationstrategiesbasedonkeywordsandlinks[J];JournalofBohaiUniversity(NaturalScienceEdition);2006-03
[4]ZHANGTao(NetworkCentreofHubeiUniversityofTechnology,Wuhan430068,China);OptimizationStrategyofSearchingEngineforEnterpriseWebsite[J];JournalofHubeiUniversityofTechnology;2009-05
国外外文文献原文
AcademicSearchEngineOptimization(aseo)
——optimizingscholarlyliteratureforgooglesc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 技能 训练