网络热点事件发现计算智能.docx
- 文档编号:8551489
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:11
- 大小:79.90KB
网络热点事件发现计算智能.docx
《网络热点事件发现计算智能.docx》由会员分享,可在线阅读,更多相关《网络热点事件发现计算智能.docx(11页珍藏版)》请在冰豆网上搜索。
网络热点事件发现计算智能
网络热点事件发现■计算智能
上海大学2015〜2016学年冬季学期研究生课程考试
文献阅读报告
08SB69005
题目:
网络热点事件检测
研究生姓名:
学号:
论文评语:
成绩:
任课教师:
王路
网络热点事件检测
2016年03月15日
摘要:
网络的事件检测与内容挖掘是一个重要的研究方向,其任务是实时监控新闻报道流、
网页及微博、微信等媒体,并从中识别新话题、新事件。
现有方法在基于网页的事件识别中已经比较成熟,然而对于一些与传统媒体相差甚大的新媒体,例如微信,事件识别算法还比较欠缺。
本文通过分析三篇事件检测的论文,对事件检测的方法进行了探讨,并且对于新媒体的事件检测算法提岀了一些改进建议及思考。
关键词:
事件检测算法新媒体
InheritanceAnomalyinConcurrentObject
OrientationAbstract:
Networkeventdetectionandcontentminingisahottopic.Its
taskistomonitorthereal-timenewsstreaming,webpages,microblogging,blogsandothermedia,andthenidentifythenewtopicandevent.Theexistingmethodsaremainlyfocusedtoidentifythewebpage-basedevent,andithasbeenrelativelymature,however,forsomeofthenewmedialiketwitter,whichishighlydifferentfromthenormalwebpage,eventrecognitionalgorithmisrelativelylacking.Thispaperanalyzesthreeeventdetectionpapers,andgivesabriefintroduction,finallyputforwardsomesuggestionsfornewmediaeventdetectionalgorithminfutureimprovement.
KeyWords:
eventdetection;algorithm;newmedia
1研究背景及意义
热点事件是指某个时间段内各个领域内发生的引起人们较大关注的事件。
如:
“郭美美事件”、“表叔杨达才事件”、“房姐龚爱爱事件”等。
这些事件都是来源于网络热点事件,这些事件对社会产生了重要的影响。
然而目前对于热点事件的提取通常都是人工筛选的。
然而,在信息化的时代,网络信息的数据量成几何级增长,而且由于网络中言论的自由化,虚拟化,导致网络信息真假难辨,鱼龙混杂,此外网络中的信息传播速度快,受众量大,传播范围广,尤其是近年来出现的微信,微博等新兴传媒形式,具有内容简短,参与发言人数众多,话题随意性强等特征。
这些网络媒体所具有的特征导致人工识别和研判显得力不从心,如何利用计算机网络技术、人工智能技术和数据挖掘技术自动的检测和挖掘热点事件成为一个重要的研究课题。
热点事件的发现方法有很多,目前研究的一个重要方向是在话题的基础上进行热点事件检测。
话题是指一个种子事件以及所有与其直接相关的事件与活动。
例如:
马航飞机的失联,失联本身是一个热点事件也是一个种子事件,而随后发生的一系列的营救活动,经济影响,政治影响等均属于此话题的直接相关事件。
目前有关话题事件的研究的工作主要集中于两类方法:
一种是基于传统向量,空间话题模型的话题演化挖掘[13],通过将文档的时间信息作为话题属性引入到话题特征计算,进而构建具有动态演变性的话题模型;另一种方法则是在概率话题模型的基础上,通过计算时间信息与话题、文档、词项的后验概率分布完成对话题事件的内容检测和挖掘[19,20]。
随着微博这种新兴传媒的产生,其内容简短、随意性强的特性导致了一个新的热点事件检测方向。
[1]探讨了利用tweeter来做事件检测,运用其中的时间、文本以及地理标识[1]。
Cheng[7]等提出了一个通过用户发布的微博内容预测用户发布微博的位置信息的模型。
文献[8]中则提出了社会化社区中流行事件跟踪的统计模型,并和传统的感染模型进行了比较。
Lee等人[10,11]对关键词定义了BursT加权公式,并引入了滑动窗口实时监控事件的发生。
[12]使用主题模型,对微博文本进行主题建模,从而避免数据稀疏问题。
2基于关键词元的话题内事件检测[23]
2.1主要思想
由于事件的个数难以确定,且相同话题的不同事件新闻间的相似度较大。
所以之前的基于话题的事件检测算法算法有所不足,于是本文提出了基于事件词元委员会的事件检测与关系发现方法。
即首先挖掘每个事件的核心词元,从事件区别于其他事件的核心词元(词元委员会)入手,以核心词元代表事件,通过新闻与核心词元的相似度判断事件的核心新闻,进
而根据新闻与事件核心新闻的相似度判断新闻所属事件。
在LinguisticDataConsortium(LDC)的两个数据集上的实验结果显示,提出的事件检测与关系发现方法可以显著地改善已有方法的效果。
2.2算法主要步骤
本文算法主要分为基于词元委员会的事件检测和基于词元委员会的事件关系发现两个部分。
2.2.1基于词元委员会的事件检测
a)新闻表示
先进行分词、简写识别与名称归一化、词性标注等预处理,随后对每个新闻生成词频向量。
最后根
据词频向量生成新闻的带有词元权重信息的新闻描述向量。
b)事件词元委员会的发现
首先对于每个词元建立一个新闻集合:
F(w)={d|d为包含词元w的新闻文档}。
词元发现委员会算法:
将所有词元组成一个集合R,对于R中词元进行层次聚类,生成词元委员会C。
c)事件中心新闻的提取
虽然一个事件的主要内容为几个核心词汇,但是事件往往有略微的主题漂移,即某篇新闻的主要内容并非事件的核心内容。
因此需要根据词元委员会发现一个事件的核心新闻簇,并利用此新闻簇做最终的事件检测。
对于一个词元委员会C,建立一个对应的核心新闻簇DC,若一个新闻d包含一半或一半以上C中的词元,则将d加入到新闻簇DC。
d)新闻事件分配
将每篇新闻与不同的核心新闻簇做相似性比较,相似度采用新闻与新闻簇中的所有新闻的相似度的平均值。
若最高相似度大于预定义阈值,则将此新闻加入到相应的新闻簇中,否则新建一个新闻簇,并加入此新闻。
2.2.2基于词元委员会的事件关系发现
a)使用事件的时间顺序与事件间新闻的平均相似度两个属性。
b)词源类型:
与整体话题紧密相关的词元、此事件紧密相关的词元、相关事件紧密相关的词元和非重点词元。
其中第一类和第四类会产生噪声,只有第二、三类是有用的。
c)重新定义词元权重:
对原来的权重进行加权,用以消除第一类和第四类噪声。
定义事件间相似度:
两个事件间新闻相似度的平均值。
d)定义事件关系:
对于事件e,定义e之前的所有事件ek中与e相似度最高且高于某阈值的事件ei为e的父亲事件。
3基于twitter的事件检测[1]
3.1主要思想
由于越来越多的人在使用twitter,直至2012年,已经有超过5亿用户。
而且其实时性强,平均每人每天刷微博次数大于1次。
此外,很多事件都是从twitter最早发现并扩散开的,例如:
Haiti的大地震。
因此这篇文章是基于twitter的事件检测,其做法是将Twitter用户看做是传感器(sensor)。
当地震发生时,Twitter用户会大量发布相关的微博,被看做是传感器感应并发送的信息。
文章先通过一个分类器,监测到目标事件,然后通过一个概率时空模型找到事件位置的中心和动态。
这篇文章的主要贡献:
(1)提出了一个融合了语义特征和实时性的twitter的数据的一个应用前景。
(2)对于地震预测和早期发现报警,本文提出了一种自发的,社会性的方法。
算法的整体流程如图1所示:
图1算法流程示意图
3.2算法主要步骤
3.2.1目标事件的选择
这篇文章选取的目标事件具有以下几个特征:
(1)大规模,如:
海啸、地震;
(2)影响人们的日常生活(3)有显著的时间和空间特征。
这篇文章作为实验选择的是日本的大地震。
3.2.2事件检测
a)关于twitter的语义分析
主要包含:
选取关键词,如:
earthquake等;噪音分类:
与目标事件无关的,如:
“Iamattendinganearthquakeconference”,和非实时性的事件,女口:
“Theearthquakeyesterdaywasscaring”;使用svm算法去除噪音,以:
“IaminJapan,earthquakerightnow!
"(搜索关键词为:
earthquake)为例,其特征如下表1所示:
表1SVM的特征
特征名
称
特征含义
举例
数值特
征
Tweet的长
度及搜索词所在位置
7个词、第
5个
1
关键词特征
切分词
IamirJapanearthquakerightnow
1
上下文
特征
关键词前后位置的词
Japanright
b)Tweet作为感知传感器
(1)假设1:
每个twitter被认为是一个传感器,当检测到目标事件时,传感器以一定概率发送消息。
(2)Tweet作为虚拟传感器,有如下特征:
一些人会受事件影响发送消息,而另一些不会;数目庞大;每个传感器可能工作或者不工作,例如:
在睡觉,那么就非工作状态。
(3)假设2:
Tweet是包含时间戳和地理信息的
3.2.3时空建模
a)时间建模
(1)分布规律。
图2是关于地震事件发生后的tweet的发送量分布图,从图中可以看出,其分布是在一个齐次泊松分布时间间隔后会出现指数分布。
(2)干扰的消除:
包含延时干扰,即tweet发送时非实时的,和虚警的干扰,即tweet本身并不是关于这个事件的,但是确被算入了。
图2地震事件发生后的tweet的发送量分布图
b)空间建模
由于每个tweet的位置不同,那么就会产生很多的位置信息,需要将错误的删除,并选出正确的地理位置。
这篇文章使用了:
首先利用马尔科夫链生成一个
时序的地理位置改变线,通过这个步骤可以得出发tweet的轨迹,就可以判断最初的事件位置。
然后利用粒子滤波排除错误的点和干扰点,再得出事件地理中心。
c)考虑传感器的地理分布
不同地理位置的tweet是有不同影响力的,如大城市的tweet密集,而乡村稀疏。
所以赋予他们不同的权重,给予稀疏的地区的tweet更高的权重。
3.3算法分析
3.3.1优点
本文算法的优点主要有:
(1)使用tweet对事件进行检测并地理位置的定位。
(2)使用了对于tweet产生的一些噪音进行了很好的消除,女口:
延时、虚警等。
3.3.2缺点
本文算法的缺点主要有:
(1)考虑的是重大的事件,如:
地震等,不够一般化。
(2)实时性不强,可以看出文中的算法是需要在一段时间的分布中确定,那么就不能够实时的发现问题。
4基于twitter地理图片的事件检测[15]
4.1主要思想
大量的微博中都含有图片,这篇文章主要是通过使用带有文本、地理信息及图片的tweet来进行挖掘事件,而不是仅仅依靠文本。
这个系统使用了文本
本文系统的主要流程图:
事件关键词检测
图片与事件显示
关键词统一、补充
图3系统流程图
4.2算法主要步骤
421关键词提取
a)切分词、提取关键词。
b)对每个关键词在时间序列上进行统计分析其变化趋势,挑选增幅大的,文中认为变化幅度越大的词关联的是一个热点问题。
如图3所示
在考虑词频变化的时候,对不同地区不同的tweet用户数目进行了考虑。
文中将整个地图分成1*1的小方块,分别计算其用户数目。
加入一个权重值来平衡用户数目的问题。
4.2.2关键词的统一和补充
最初,每个事件只有一个关键词,例如:
Typhon关键词的统一。
目的:
基于两个不同的关键词的tweet有很大的重复度,使用频率高的代替另一个。
例如:
“rain”和“Typhon”,那么用“Typhon代替了“rain”。
关键词的补充。
目的:
能更加好的去除噪音,根
据关键词得出的tweet中,另一个词在其附近的概率大于80%,将两者合并为关键词。
例如:
“music”和“festival”经常出现在一起,
那么就合并为“musicfestival”。
4.2.3事件图片聚类
a)聚类使用的图片特征
在文中,聚类使用了特征袋加速鲁棒性特征
(Bag-of-FeatureswithSURF)和色彩直方图
b)聚类算法
Ward算法,一种凝聚层次聚类算法。
424事件、图片显示
根据tweet的地理标识,计算事件发生地理坐标将每个检测出的事件中选出一张最能表现的图片显示。
4.3算法分析
4.3.1优点
本文算法的优点主要有:
(1)使用了tweet的图片信息。
(2)在事件发现时使用将tweet的用户数加入考虑,而且使用分割的算法。
4.3.2缺点
本文算法的缺点主要有:
(1)图片聚类只是选出了最符合事件的图片,应该把图片反作用于事件检测,让图片也成为事件检测的一部分。
(2)现在图片聚类算法只是针对一些简单的图片,复杂的图片还不可以。
(3)对于地理位置的确定没有提出详细的算法。
5体会与思考
经过一个学期的学习,计算智能这门课给我留下了深刻的印象,我也学习到了很多。
通过同学们的演讲和老师的讲课,我对于这个陌生的领域了解了很多,发现了很多有趣的问题。
计算智能是一门注重思考的课程,虽然对于这方面处理方面我从未涉及过,但王老师用简单易懂的语言向我们描述这门课程,使我受益匪浅。
通过这门课程的学习不仅锻炼我们的思维能力,也让我更多的了解现在基于计算智能的发展方向和技术。
在努力尝试阅读老师要求的课程论文的同时,不仅巩固了以前的知识,而且也学习了新的东西,因为之前没有学习过相关课程,所以一些公式看不太懂,但是思想和方法让我受益颇多。
在读了一些论文,以及和同学们研讨过后,对于网络热点事件检测这个问题,我产生了一些思考。
(1)首先,实时性与准确性是非常重要的,而现在很多算法的实时性还不够好,都是需要通过正负反馈样本学习后得出。
准确性还存在一些遗漏,有些关键词相同但是核心内容不同的事件还是不能够很好的分辨出来。
(2)关于事件之间的关系,两个事件可能是因果关系,也有可能是共生关系或者其他关系,而且事件之间的关系应该是以事件簇来讨论的,即事件簇内各个事件之间的关系。
(3)现在,微博、微信用户群体日益庞大,这些短小文本的媒体形式不同于以往的网页,需要根据其特征发掘新的算法。
本文中讨论过的两篇关于tweeter的文章,但是这些文章都或多或少有没有考虑完整的地方。
例如:
不同人发的微博置信度应该是不同的,官方、大V置信度应该要高一点。
僵尸粉也是一个很大的问题,因为他们会转发微博,很可能造出虚假事件。
这些新媒体还有很多其他的属性,包括用户关系等都可以加入事件发现和演化的算法中。
6结束语
本文首先对网络热点事件检测的现状和发展做了简单的总结,然后通过三篇论文详细的阐述了一些热点事件检测的算法,最后提出了自己的一些想法和学习体会。
网络热点事件检测和挖掘是一个很重要的课题,随着网络媒体的不断改变,旧的算法也需要不断更新、完善,准确率将会更高,速度更快。
这个课题,未来还有很长的路要走。
在此,我向对本文的工作给予支持和建议的老师同学,尤其是王路教授领导的讨论班上的同学和老师表示感谢。
参考文献
[1]SakakiT,OkazakiM,MatsuoY.EarthquakeshakesTwitterusers:
real-timeeventdetectionbysocialsensors[J]〃KnowledgeandDataEngineering.IEEE.2013:
Vol.25(4),pp.919-931
[2]VozarikovaE..Acousticeventdetectionbasedonmrmrselectedfeaturevectors.[J].JournalofElectricalandElectronicsEngineering,2012,5
(1)
[3]ShigeruMotoi.BayesianeventdetectionforsportgameswithhiddenMarkovmodel.[J].PatternAnalysisand
Applications,2012,15
(1)
[4]JunjieYao.Burstyeventdetectionfromcollaborativetags.[J].WorldWideWeb,2012,15
(2)
[5]C.K.Chan,M.Vasardani,S.Winter,LeveragingTwittertodetecteventnamesassociatedwithaplace
[J].JournalofSpatialScience,2014,Vol.59
(1),pp.137-155
[6]E.Umamaheswari,T.V.Geetha.EventMiningThroughClustering[J]JournalofIntelligentSystems,2014,
Vol.23
(1),pp.59-73
[7]ChengZ,CaverleeJ,LeeK.Youarewhereyoutweet:
acontent-basedapproachtogeo-locatingtwitterusers[C]//Proceedingsofthe19thACMinternationalconferenceonInformationandknowledgemanagement.
2010.NewYork,NY,USA.ACM,CIKM'10,
[8]RamageD,DumaisS,LieblingD.CharacterizingMicroblogswithTopicModels[C]//ICWSM..[S.l.]:
[s.n.],
2010,
[9]SayyaiH,HurstM,MaykovA.EventDetectionandTrackinginSocialStreams[C]//.AdarE,HurstM,FininTT,
etal.ICWSM.[S.l.]:
TheAAAIPress,2009
[10]LeeC-H,WuC-H,ChienT-F.BursT:
adynamictermweightingschemeforminingmicroblogging
messages[C]//Proceedingsofthe8thInternationalSymposiumonNeuralNetwork,Guilin,China,May29-Jun1,
2011.Berlin:
Springer,2011:
548-557.
[11]LeeC-H,WuC-H,ChienT-F.BursT:
adynamictermweightingschemeforminingmicroblogging
messages[C]//Proceedingsofthe8thInternationalSymposiumonNeuralNetwork,Guilin,China,May29-Jun1,
2011.Berlin:
Springer,2011:
548-557.
[12]SonmJ,ChodY,KIMT,etal.Modelingandsimulationoftargetmotionanalysisforasubmarineusinga
script-basedtacticsmanager[J].AdvancesinEngineeringSoftware,2010,41(3):
506—516.
[13]WeiCP,LeeYH,etal.Discoveringeventepisodesfromnewscorpora:
Atemporal-basedapproach//Proceedings
oftheACMICEC'09Taipei,China,2009,7280.
[14]WANGChong,BLEIDM.Collaborativetopicmodelingforrecommendingscientificarticles.Proceedingsofthe17thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.2011
[15]KanekoT,YanaiK.Visualeventminingfromgeo-tweetphotos[C]//MultimediaandExpoWorkshops(ICMEW),
2013IEEEInternationalConferenceon.IEEE,2013:
1-6.
[16]DuY,HeY,TianY.etal.Microblogburstytopicdetectionbasedonuserrelationship.InformationTechnologyand
ArtificialIntelligenceConference(ITAIC).2011
[17]DuYY,WuW,HeYX,etal.MicroblogBurstyFeatureDetec-tionBasedonDynamicsModel.Proceedingsofthe
Interna-tionalConferenceonSystemsandInformatics(ICSAI).2012
[18]DiaoQM,JiangJ,ZhuFD.FindingBurstyTopicsfromMicrob-logs.ProceedingsofACL.2012
[19]ErdmannM,NakayamaK,HaraT
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 热点 事件 发现 计算 智能