话题发现与跟踪技术样本.docx
- 文档编号:11254804
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:4
- 大小:185.82KB
话题发现与跟踪技术样本.docx
《话题发现与跟踪技术样本.docx》由会员分享,可在线阅读,更多相关《话题发现与跟踪技术样本.docx(4页珍藏版)》请在冰豆网上搜索。
话题发现与跟踪技术样本
话题发现与跟踪技术
一:
方案提出
1利用网络爬虫Nutch将爬到的数据存储在表Crawler中
2将表中数据(标题和正文)进行特征向量提取,得到VSM(VectorSpaceModel)向量空间模型
3用KNN聚类算法进行第一次聚类得到微类集合
4用单连通算法(Single-Pass算法)进行第二次聚类得到精确的聚类结果
5根据热点事件发展曲线识别出热点话题
6话题呈现
二:
网络舆情分析
1系统总体结构:
话题发现模型:
1主题网络爬虫定义:
主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
基本思路:
按照事先给定的主题,分析超链接和已下载的网页内容,预测下一个待抓取的URL以及当前网页的主题相关度。
2信息采集流程:
1)输入WebURL
2)Web相应?
3)否就结束;是就进行下一步
4)初始化URL队列
5)数据流(读取数据流类)
6)信息分类存储(正则表示式匹配类)
7)数据库(操作数据库类)
8)添加到新URL队列
9)重复第2)步直到URL队列为空
3热点分析过程
包括:
热点分析起始时间,热点信息显示,舆情采集信息和话题活性图
4存储记录
存储一条记录时,程序首先经过MD5将网络爬虫提取的每一个字段值联合成一个字符串进行加密,映射成32位长的UDDI,作为此数据的标识。
实现去重功能
MD5去重复URL:
Message-Digest是指字符串的Hash变换,即把一个任意长度的字符串变换成一定长的大整数。
MD5加密以512位分组来处理输入的信息,且每一组又被划分为16个32为子分组,将这四个32位分组级联后将生成一个128位散列值。
MD5算法是一个不可逆的字符串变化算法。
特性:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 话题 发现 跟踪 技术 样本