基于搜索引擎的网络知识社区模式研究.docx
- 文档编号:28609061
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:73
- 大小:308.14KB
基于搜索引擎的网络知识社区模式研究.docx
《基于搜索引擎的网络知识社区模式研究.docx》由会员分享,可在线阅读,更多相关《基于搜索引擎的网络知识社区模式研究.docx(73页珍藏版)》请在冰豆网上搜索。
基于搜索引擎的网络知识社区模式研究
目录
第1章绪论1
1.1选题背景1
1.2研究现状3
1.2.1中文文献调研3
1.2.2英文文献调研5
1.3论文结构7
第2章搜索引擎与网络知识社区发展概况8
2.1搜索引擎的发展与局限8
2.1.1搜索引擎概述8
2.1.2现行搜索引擎的局限性10
2.2网络知识社区的发展与局限11
2.2.1相关研究概述11
2.2.1.1社会学中社区概念的提出11
2.2.1.2网络环境下的社区概念12
2.2.1.3知识管理中的知识社区概念14
2.2.2网络知识社区概述15
2.2.2.1网络知识社区的概念界定15
2.2.2.2网络知识社区的类型16
2.2.2.3现行网络知识社区的局限性18
第3章基于搜索引擎的网络知识社区模式分析20
3.1搜索引擎与网络知识社区的结合20
3.2模式概念界定22
3.3模式结构说明25
3.3.1模式整体架构26
3.3.2模式中的搜索引擎工作流程27
3.3.3模式中网络知识社区的构建28
3.3.4模式中的用户信息系统30
3.4模式的商业化问题31
3.3.1商业化的可行性31
3.3.2可能的盈利机制33
3.3.2.1盈利机制之一:
广告33
3.3.2.2盈利机制之二:
增值服务34
3.3.2.3盈利机制之三:
联盟35
3.5模式的知识共享机制35
3.5.1知识共享机制的实现35
3.5.2知识共享机制中存在的问题37
3.4.2.1知识成本37
3.4.2.2知识产权37
第4章用户行为研究方法的引入39
4.1引入用户行为研究的必要性39
4.2用户概念与特点40
4.2.1用户概念40
4.2.2用户特点41
4.3用户行为类型42
4.3.1正常用户行为42
4.3.2异常用户行为43
4.4用户行为研究方法44
4.4.1定量研究方法44
4.4.2定性研究方法46
4.5基于目的的用户行为研究方法运用47
4.5.1以搜索引擎为对象48
4.5.1.1搜索结果展现方式48
4.5.1.2搜索功能49
4.5.2以知识社区为对象50
4.5.2.1建设策略50
4.5.2.2增值服务52
4.5.3以模式整体为对象52
4.5.3.1反作弊52
4.5.3.2广告53
4.6用户行为研究方法运用的基本流程53
第5章案例:
基于搜索引擎的网络知识社区模式中问答平台的提问去重机制56
5.1案例概述56
5.2问题现状与需求57
5.3策略制定58
5.3.1提问流程58
5.3.2相似问题展现方式60
5.4效果评估62
第6章总结66
6.1研究结论66
6.2进一步研究建议67
参考文献68
图表目录
图2-1:
2002年-2010年中国搜索引擎用户数变化趋势………………………………………9
图2-2:
2002年-2010年中国搜索引擎日搜索请求量变化趋势………………………………9
图3-1:
首页…………………………………………………………………………24
图3-2:
搜索结果页…………………………………………………………………25
图3-3:
基于搜索引擎的网络知识社区模式整体架构…………………………………………26
图3-4:
搜索引擎工作流程………………………………………………………………………27
图3-5:
网络知识社区群组成……………………………………………………………………28
图3-6:
网络知识社区架构………………………………………………………………………29
图3-7:
用户系统架构……………………………………………………………………………30
图3-8:
“长尾”理论………………………………………………………………………………33
图4-1:
基于搜索引擎的网络知识社区模式的成员构成………………………………………41
图4-2:
模式发展中的用户行为研究应用流程…………………………………………………54
图5-1:
KQA系统搜索与提问界面………………………………………………………………59
表1-1:
中文文献调研结果………………………………………………………………………3
表1-2:
英文文献调研结果………………………………………………………………………5
表4-1:
针对搜索结果展现方式优化的用户行为研究方法运用………………………………48
表4-2:
针对搜索功能升级的用户行为研究方法运用…………………………………………50
表4-3:
针对社区建设策略的用户行为研究方法运用…………………………………………51
表5-1:
改进前问题搜索结果重复现象调研……………………………………………………58
表5-2:
改进后问题搜索结果重复现象调研……………………………………………………63
表5-3:
改进前后重合样本搜索结果重复现象对比……………………………………………63
表5-4:
改进后新样本搜索结果重复现象调研…………………………………………………64
第1章绪论
1.1选题背景
根据2005年CNNIC网络调研报告,截止到2005年6月30日,中国的互联网用户总数为10300万人,首次超过一亿人口,同2005年1月相比,互联网用户总数半年增加了900万人,增长率为9.6%,同2004年7月相比增长18.4%。
而截至2005年12月底,中国已有1.11亿多互联网用户,全球有9亿多互联网用户,也就是说,全球有近两成的人口都已经开始使用互联网。
当互联网用户发展为一个数量巨大、分布相对均匀且结构日趋合理的群体,互联网本身也会发生一定的变化。
除了技术的日新月异外,互联网作为一个社会群落的特征日益明显,并表现出其特有的社会属性来。
而互联网用户也不仅仅作为互联网服务的使用者,更多地开始参与互联网的组建与创造。
这种互联网体制上的变化,与其技术上的变化相比,也许会对人类的经济、文化等方面产生更深远的影响。
2004年,在美国著名的O'Reilly公司和MedieLive公司之间的一次研讨会上,O'Reilly公司副总裁DaleDougherty注意到,在2001年秋天互联网公司泡沫的破灭之后,互联网反而比其他任何时候都具有更快的成长性,许多新应用程序和网站正在不断涌现,而且表现出某种内在的规律性与一致性。
那么,“互联网泡沫破灭”是否预示着互联网发展进入了一个新的阶段?
web2.0的概念由此诞生。
2005年9月,O'Reilly公司总裁TimO'Reilly撰文对web2.0概念进行了总结,其主要观点是:
有效利用消费者的自助服务和算法上的数据管理,以便能够将触角延伸至整个互联网,延伸至各个边缘而不仅仅是中心,延伸至长尾而不仅仅是头部。
换言之,互联网用户的自身力量的集合成为提供互联网内容的主要来源,用户贡献所形成的网络效应成为促进互联网发展的重要动力。
web2.0的概念提出后,成为了全球IT界的一个新的风向标,引起了各方广泛的讨论和应用。
既涌现了大量试图发掘web2.0潜能的创业者,也不乏对web2.0概念进行大肆炒作的人,而且对其定义至今尚未形成统一的认同。
中国互联网协会对web2.0的定义是:
web2.0是互联网的一次理念和思想体系的升级换代,由原来的自上而下的由少数资源控制者集中控制主导的互联网体系转变为自下而上的由广大用户集体智慧和力量主导的互联网体系。
web2.0内在的动力来源是将互联网的主导权交还个人从而充分发掘了个人的积极性参与到体系中来,广大个人所贡献的影响和智慧和个人联系形成的社群的影响就替代了原来少数人所控制和制造的影响,从而极大解放了个人的创作和贡献的潜能,使得互联网的创造力上升到了新的量级。
互联网实验室对web2.0的定义是:
web2.0不单纯是技术或者解决方案,web2.0是一套可执行的理念体系,实践着网络社会化和个性化的理想,使个人成为真正意义的主体,实现互联网生产方式的变革从而解放生产力,这个理念体系在不断发展完善中,并且会越来越清晰。
综合上述的定义,笔者认为,所谓的web2.0概念中其实包含了两个最重要的内涵,即互联网的社会化与个人化。
社会化指的是随着互联网用户群的扩大,以及用户之间联系的日益密切与复杂,互联网已经越来越像是一个包含种种社会关系的群落,许多在现实生活中适用的社会学、经济学理论也慢慢在互联网中得到验证。
个人化指的是随着互联网用户表达能力的增强、表达方式的增加,当他们的基本信息需求得到满足之后,就有了更深层次的对知识发布和知识交流的需求。
因此,以个人为单位的互联网内容创作者队伍慢慢形成并壮大,甚至可能最终成为互联网建设的中坚力量。
随着诸如blog、RSS、wiki、tag、SNS等基于web2.0的互联网应用的出现并受到互联网用户的强烈欢迎,web2.0已经成为一个在互联网产业中被频繁提及并给予强烈关注的概念。
在这样的背景下,笔者注意到,各种基于web2.0的互联网应用目前其实还处于起步摸索的阶段,缺乏清晰的发展模式,也没有明确的商业模式。
虽然从人们的期望上来说,web2.0可能在经济、文化等方面对人类社会产生影响,但谁也无法预估这个概念及其互联网应用的发展轨迹究竟如何。
笔者认为,脱离具体的模式来讨论概念是没有意义的。
而且,所谓的web2.0应用即使有了高速稳定的增长,其发展也必然是在web1.0(相对于web2.0而言)的那些成熟的互联网应用的基础上进行的,因为那些应用已经成为互联网的基本。
本文并不想就web2.0这个概念本身进行研究,而是希望藉由web2.0概念中提出的互联网所正在面临的社会化与个人化的变革,对适应这种变革的互联网新模式进行探讨。
笔者试图从如下角度入手:
互联网中已经发展成熟的应用是否可以与基于web2.0概念的新应用进行有机结合,优势互补,形成新的应用模式。
一方面可以对处于摸索阶段的web2.0应用进行有效的引导,另一方面也可以发掘成熟应用的潜力空间。
根据长期以来对互联网产业现状的观察与分析,结合在实践中进行的具体研究工作,笔者最终选择以搜索引擎与网络知识社区的结合作为探讨的切入点。
1.2研究现状
1.2.1中文文献调研
笔者以“搜索引擎”和“社区”作为关键词组合,分别在中国期刊全文数据库、维普资讯中文科技期刊数据库进行检索(2006年2月23日),结果如下:
表1-1:
中文文献调研结果
来源
命中文献数
有效文献数
中国期刊全文数据库
50
4
维普资讯中文科技期刊数据库
6
1
经过除重,笔者在中国期刊全文数据库和维普资讯中文科技期刊数据库中共找到有效文献4篇,其中2篇为期刊论文,2篇为新闻报道。
杨楠、弓丹志等人在2005年发表的《web社区发现技术综述》一文中指出,web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断地扩大,因此,如何利用和发现web中的有用信息就变得十分重要。
文章作者发现,web在发展过程中存在着大量的社区,且社区中蕴藏着web组织中非常重要的信息,这些信息可以帮助人们对web的全貌有所了解。
同时,web按照社区来组织有许多优点,因为社区可以引导用户找到感兴趣的信息;社区可以帮助web服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者;社区还代表了web的社会活动。
基于上述原因,文章作者认为需要通过研究来致力于发现web中的各种不为人知或潜在的社区,并对社区的自动或半自动发现技术进行了较为全面的分析。
另外,文章还得到以下结论:
web结构的建模研究不但对web信息检索,而且对web上的资源发现,改进搜索引擎都具有非常重要的意义。
李振龙在2005年发表的《搜索引擎的技术局限及改进策略研究》一文中,首先对当前不断发展的web环境下的搜索引擎进行了分析,认为其局限和不足表现在:
对web的覆盖度低,更新周期长导致的检索召回率低;不相关文档比例高导致的检索精度低;缺乏对web信息的监控和对用户兴趣需求的把握。
针对上述问题,文章作者从元搜索引擎的原理得到启示,提出了基于web社区的搜索策略,基本思想是:
将整个web(按主题或内容)分为多个不同的web社区;利用多个搜索引擎解决整个web的搜索问题,每个搜索引擎完成web不同社区的搜索;最后可根据需要将它们的搜索结果整合。
而这个策略的优点在于,可以通过社区搜索的高效率带来整个web搜索的高效率。
在2006年2月的一篇关于雅虎的搜索市场策略的报道中提到,雅虎从2005年起就开始了一系列的收购,而所有收购的共同目标是建立一个互联网用户可以相互交流的网络社区,提供另类的社区搜索服务,这也是雅虎用以对抗Google的主要策略之一。
雅虎表示,收购社区网站,主要是聚合社区的任期,挖掘在线社区的潜力,鼓励社区用户发挥集体智慧,从而改变人们在线搜索信息的传统方式,即主要依赖社区的活跃用户根据定制的个性化服务提供偏好搜索。
在2006年4月的一篇介绍奇虎的报道中指出,奇虎对自己有两个定位,第一,全球智能化的中文社区搜索引擎,帮助网民从海量的互联网内容中便捷地获取信息,尤其是BBS上的信息;第二,专业的搜索技术服务提供商,免费为合作的各个社区提供自己的搜索服务。
奇虎认为,这种模式是“三赢”的:
奇虎通过与社区的合作推广,吸引到更多的点击用户,为广告商带来潜在的购买需求。
社区满足了用户站内信息检索的需求,而且不占用自己的服务器资源,增强了用户的粘性。
用户则不用分别注册、登录各个社区,因为奇虎给他们打开了一扇进入广阔的BBS信息海洋的大门。
奇虎网总裁齐向东说,“我们本质上还是做搜索,只不过把2.0时代的互动性和搜索技术融合在一起了”。
通过上述对中文文献的调研可知,在学术界已有学者注意到web环境下的社区对信息组织的重要性,也注意到了社区的结构形式对搜索引擎改进所产生的作用。
但目前还停留在理论提出的阶段,没有建立起具体的模式,当然也就没有专门针对模式的分析研究。
在产业界,网络社区与搜索引擎相结合的web产品已经逐渐出现并成为一个新的热点,但大多还是单纯地基于对已有网络社区的内容搜索,而没有充分考虑二者的有机结合,也没有从知识共享的角度进行深入探讨。
1.2.2英文文献调研
笔者以“searchengine”和“community”作为关键词组合,分别在AcademicResearchLibrary(UMI学术期刊图书馆)和LibraryAndInformationScienceAbstracts(图书馆与信息科学文摘库)进行检索,结果如下:
表1-2:
英文文献调研结果
来源
命中文献数
有效文献数
AcademicResearchLibrary
64
2
LibraryAndInformationScienceAbstracts
29
2
经过除重,笔者在AcademicResearchLibrary(UMI学术期刊图书馆)和LibraryAndInformationScienceAbstracts(图书馆与信息科学文摘库)中共找到有效文献4篇,均为期刊论文。
R.W.Wiggins在2001年发表的Teoma:
anewcontendertargetsGoogle一文中描述了一种名为Teoma的新型搜索引擎。
与传统的搜索引擎不同,它采用了一种聚类技术,可以将具有某种共同点并相互链接的网页和站点集合起来提供给搜索用户。
AdoracioPerezAlarcon和JordiSerranoMunoz在2004年发表的SelectionandimplementationofasearchengineinthevirtuallibraryoftheUniversitatObertadeCatalunya一文中指出,随着信息资源和用户的增长,用户在使用信息服务获取信息的时候会面临更大的复杂性。
文章以UOC(UniversitatObertadeCataluna)虚拟图书馆为例,描述了如何在虚拟信息环境中引入搜索引擎并发挥其功能,以方便用户获取信息,并有针对性地满足用户需求。
WingyanChung和HsinchunChen等人在2005年发表的AVisualFrameworkforKnowledgeDiscoveryontheWeb:
AnEmpiricalStudyofBusinessIntelligenceExploration一文中指出,信息过载使得搜索引擎提供给用户越来越多的不相关信息,而网络社区作为一种有利于知识发现的虚拟构架,将会让用户更有效、更便捷地获取信息。
BarrySmyth和EvelynBalfe等人在2005年发表的ExploitingQueryRepetitionandRegularityinanAdaptiveCommunity-BasedWebSearchEngine一文中同样指出,语焉不详的搜索词、日益失去耐心的用户以及迅速增长的不规范网页文档使得搜索引擎的效用递减。
文章作者也发现,许多用户的搜索需求与搜索行为是重复且有规律的,因此,如果能将搜索需求相近的用户集合起来并提供针对性的搜索服务,将会有助于提高用户的需求满足度。
通过上述对英文文献的调研可知,已有的研究主要是源于发现了信息获取困难与搜索引擎不足,希望提出能对此加以改进,提高用户的信息需求满足程度。
虽然并不是所有研究者都提出了网络社区的概念,但将具有相同特征,或是符合用户相似需求的信息组织、聚合起来是研究者提出的主要改进措施之一。
与中文文献调研的结果一样,英文文献中依然没有对具体模式的探讨。
1.3论文结构
鉴于第二节中对本主题的研究现状的调研情况,笔者希望本文可以弥补这方面研究的不足,提出基于搜索引擎的网络知识社区模式的概念,并对模式的架构和原理进行界定和分析。
具体的研究内容包括:
1)通过对搜索引擎和网络知识社区的分别研究,分析搜索引擎与网络知识社区相结合的可能性与意义。
2)明确基于搜索引擎的网络知识社区模式的概念,根据搜索引擎与网络知识社区的各自特点对该模式的基本架构与流程进行设计与说明,并结合模式的结构说明,对其商业化与知识共享机制等方面的问题进行探讨。
3)通过分析在该模式的发展过程中用户行为研究的必要性与重要性,对各种用户行为研究方法在模式发展中的具体应用进行探讨。
4)运用具体的案例来验证与评估用户行为研究方法在基于搜索引擎的网络知识社区模式发展中的作用与效果。
第2章搜索引擎与网络知识社区发展概况
2.1搜索引擎的发展与局限
2.1.1搜索引擎概述
1992年,欧洲核子研究中心(CERN)研制开发了采用超文本技术和多媒体技术并支持多种网络协议的www(worldwideweb),推出后很快就成为发展最快和应用最广的信息服务。
随着www的流行,1994年4月,第一个网络搜索引擎WebCrawler()诞生。
1994年底美国著名的门户网站Yahoo!
()的兴起则确立了搜索引擎在互联网的重要地位。
网络搜索引擎是是一种利用网络自动搜索技术,对互联网各种资源进行获取、标引,并使之可以为用户所检索的工具。
最早的搜索引擎主要是分类搜索引擎和关键词搜索引擎(又称全文搜索引擎)这两种形式,发展至今,关键词搜索引擎已经几乎成为网络搜索引擎的主流。
本文也主要讨论关键词搜索引擎。
根据2005年中国搜索引擎年度报告的调研数据与研究预测显示,2006年年中国的搜索引擎用户将达到11900万人,比2005年增长22.6%,并将占中国所有互联网用户的88.1%;而到2010年时,中国搜索引擎用户数将达到2.16亿,年增长率为11.3%,占中国所有互联网用户的93.1%。
(如下图所示)
图2-1:
2002年-2010年中国搜索引擎用户数变化趋势
资料来源:
中国搜索引擎年度报告2005年市场份额版
同时,调研数据也显示,2005年12月时中国的搜索引擎日均搜索请求量达到了40650万次,比2004年12月时增长了115.8%,比2002年12月时翻了17倍。
经预测,2006年12月时中国的搜索引擎日均搜索请求量将达到72900万次,而到了2010年12月,中国搜索引擎日均搜索请求量将有24亿次,年增长率有27%。
(如下图所示)
图2-2:
2002年-2010年中国搜索引擎日搜索请求量变化趋势
资料来源:
中国搜索引擎年度报告2005年市场份额版
可见,网络搜索引擎在我国的互联网产业中得到了迅速发展,并逐渐成为我国互联网用户的普及型与习惯性的网络信息查寻工具。
2.1.2现行搜索引擎的局限性
网络搜索引擎起源于传统的信息全文检索理论,它的工作流程是:
首先使用spider自动搜索机器人程序收集互联网上的网页,再利用自动索引软件对网页进行标引并建立数据库。
数据库中的记录包括了指向各个网页的链接以及当用户输入提问关键词之后,搜索引擎会在其数据库中找出相关的记录,并将找到的结果按相关性顺序排列后提供给用户。
因此,对网络搜索引擎的评价,基本上是参照传统的文献检索工具的质量评价标准,再结合网络环境下信息资源的特点来进行的。
其中可量化的标准主要包括:
网页覆盖率,即spider收集的网页范围;查全率,即网络中所有的相关结果被检索出的比例;查准率,即搜索结果中相关性较高结果的比例;更新速度,即对数据库中收录的网页进行更新的频率。
非量化的标准包括了网页自动标引的准确程度,检索界面中检索结果的呈现方式,以及整个搜索引擎的易用性等。
当利用上述评价指标对网络搜索引擎进行评估时,相应地就会存在各种有待改进的问题。
随着技术的发展,早期提出的搜索引擎所存在的问题都在一一地得到不同程度的解决,例如覆盖率不够大,数据库的更新太慢,死链接无法及时清除等。
但网络搜索引擎的发展仍然面临许多局限,笔者试列举如下:
第一,由于网页形式日趋多样,源代码中的各种标记也可能存在不规范的情况,因此搜索引擎在对网页进行标引时,对信息有效性的判断能力有限,从而导致网页的归类、相关度计算等方面都受到影响,难以保证准确度。
第二,用户的搜索关键字串往往是自然语言,但搜索引擎对自然语言,特别是中文自然语言的处理效果仍未能如人意。
各种分词方法都会将关键词从语义背景中割裂出来,使其丧失了内在的语法逻辑关联,导致搜索引擎无法很好地理解用户的真正检索需求。
第三,搜索引擎提供的搜索结果以相关度排序后呈现给用户,但相关度的计算方法本身尚无法智能到足以了解用户信息需求的程度。
此外,搜索结果只提供指向相关信息所在的网页,但网页中可能存在很多无关信息。
那么,很可能用户必须将时间浪费在从罗列出的数量巨大的搜索结果中挑选有效信息的低效率工作上。
2.2网络知识社区的发展与局限
2.2.1相关研究概述
2.2.1.1社会学中社区概念的提出
“社区”的概念源于德国社会学家FerdinandTonnies1887年出版的《共同体与社会》一书,德语原文为gemeinschaft。
在书中,FerdinandTonnies将社区表述为由价值取向一致的人口组成的关系密切、协同互助、富有人情味的社会关系或社会团体。
第一次世界大战后,该书由美国学者C.P.Loomis翻译成英文,gemeinschaft被翻译成community。
community这个英文单词来源
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 搜索引擎 网络 知识 社区 模式 研究