创新报告文档格式.docx
- 文档编号:15094869
- 上传时间:2022-10-27
- 格式:DOCX
- 页数:11
- 大小:54.66KB
创新报告文档格式.docx
《创新报告文档格式.docx》由会员分享,可在线阅读,更多相关《创新报告文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
1.2研究现状1
第2章基础技术支持2
2.1浏览器日志文件简述2
2.2VISUALC++概述2
2.3数据挖掘原理3
2.4SQLSEVER概述4
第3章用户行为分析功能设计5
3.1系统功能结构设计5
3.2功能模块设计5
第4章部分功能的实现8
4.1头文件8
4.2连接数据库8
4.3数据分析结果呈现9
参考文献11
第1章绪论
1.1课题背景
浏览器作为访问Internet的最重要入口,网民要在其上进行和完成绝大部分应用和服务。
掌握了浏览器用户行为,不仅仅是引导了网民的上网入口和操作习惯,还包括网站流量、网页标准等等。
通过对浏览器日志获得的数据进行分析,可以得到许多有价值的信息。
可以清楚地了解用户的行为习惯,为能迎合用户喜好做更好改善。
也能判断归类族群,为有需要相关信息事件提供帮助。
从大量的数据中提取隐藏的规律指导生产,指导商业运作,将数据挖掘技术应用到互联网的数据分析上,使用数据挖掘其作用同样在于挖掘出有价值的规律指导该领域的活动,在获得信息的辅助下WEB浏览器能够更准确地理解客户从而为其提供更优质的服务对客户来说优质的服务能够缩短其在网站中的搜索定位时间提高对网站信息的利用效率最终提高互联网的作为信息媒体的使用价值。
所谓万事皆因果,用户发起搜索、点击某个URL、修改查询、终止查询,都是有原因的,即用户行为背后所隐含的用户需求。
分析用户行为特征,并为之建立模型,可以将各种表面现象进行归纳描述,揭示用户的搜索意图。
此外,用户行为模型可以为搜索引擎的其他相关算法研究提供参考。
1.2研究现状
目前在国外,很多行业已经在利用数据挖掘技术为生产和客户管理等领域提供决策支持。
mM、Oracle和Microsoft等数据库软件提供商也在其最新的企业级数据库服务器软件中包含数据仓库和数据挖掘功能,在一定程度上提供了通用的数据挖掘解决方案,例如IBM的DBZIntelligentMinerforData和Microsoft的AnalysisServices2000。
同时,国外的大学和科研机构也一直在探索更快的、可伸缩性强和处理数据类型更广的数据挖掘算法。
以加拿大大不列颠哥伦比亚省SimonFraser大学“智能数据库系统研究实验室"
创建的DBMiner数据挖掘系统就是代表。
在国内,也有一些软件公司和科研单位正在或己经研制出日志分析研究的软件。
中国的公安部门也在研究利用KDD技术总结各类案件的共性和发生规律,从而在宏观上制定最有效的社会治安综合治理的方案和措施;
在微观上指出犯罪人的特点,划定罪犯的范围,为侦破工作提供方向。
第2章基础技术支持
2.1浏览器日志文件简述
浏览器所保存的关于本地用户访问网站的各种记录信息的集合,包括浏览器cookies、浏览历史记录、下载历史记录等,并非存在一个真实的日志文件。
客户端日志记录的是本地用户的私有数据,包括:
URL、资源类型、请求时间、资源大小、动作、在请求资源上停留时间、用户、请求者域名、服务器状态等,它精确地反映本地各个用户行为特征。
一般日志格式分为两种,一种是通用日志格式CLF,另一种是扩展公共日志格式ECLF。
在日志文件中,每条日志记录可被称作项活条目:
1)时间戳(date/time)表示服务器接受用户请求的日期/时间。
2)页面请求方式(cs-method)主要有:
从WEB服务器得到请求对象的GET方法,向WEB服务器端发送信息的POST方法,及作为请求对象的HTTP头的HEAD方法。
3)用户请求访问页面的URL(cs-uri-stem),用户请求访问一个页面的URL地址。
4)用户请求页面时的参数(cs-uri-query),用户查询所需信息时在服务器上留下的记录。
5)用户标示符(cs-usename),在WEB日志中默认为空。
6)服务器状态(cs-status),HTTP响应的状态码由服务器返回,200-206常见200表示响应成功,400-417常见404表示服务器响应错误,500-505常见503表示WEB服务器有异常。
7)传送字节(cs-bytes),服务器发送到客户端的字节数。
8)引用域(cs,referer),表示用户访问本页面的参引页。
如果用户直接键入地址或者通过浏览器书签访问页面,那么此时页面参引页为空。
2.2VISUALC++概述
VisualC++是面向对象的可视化集成编程系统。
它不但具有程序框架自动生成、灵活方便的类管理、代码编写和界面设计集成交互操作、可开发多种程序等优点,而且通过简单的设置就可使其生成的程序框架支持数据库接口、OLE2,WinSock网络、3D控制界面。
1)指定更多的语义着色:
C++令牌现在有着色默认情况下,和你可以指定更多colorizations。
您可以突出显示所有实例的符号,只是指向一个实例。
您可以将各选择按Ctrl+Shift+向上箭头或Ctrl+Shift+向下箭头键突出显示的参考。
您可以打开或关闭此功能。
2)当你键入选择的成员函数:
列表成员:
列表会自动显示您输入文字时,在代码编辑器。
结果筛选,以便只有相关成员出现。
3)利用C++/CLI的智能感知:
C++/CLI支持智能感知功能,如快速信息,参数说明,列出所有注册会员,并自动完成。
4)加快您的编码使用的代码片段:
从列表成员列表中,您可以选择一个代码片段,然后填写所需的逻辑。
片段是开关的if-else,和其他基本的代码结构。
您还可以创建自定义的片段。
2.3数据挖掘原理
数据挖掘是从大型数据集中发现可行信息的过程。
数据挖掘使用数学分析来派生存在于数据中的模式和趋势。
这些模式和趋势可以被收集在一起并定义为“数据挖掘模型”。
挖掘模型可以应用于特定的方案,例如:
1)预测:
估计销售量、预测服务器负载或服务器停机时间
2)风险和概率:
选择目标邮递的最佳客户、确定风险方案的可能保本点、将概率分配给诊断或其他结果
3)建议:
确定哪些产品有可能一起销售并生成建议
4)查找序列:
分析购物车中的客户选择,并预测接下来可能发生的事件
5)分组:
将客户或事件划分到相关的项目分类,分析和预测相关性
生成挖掘模型是大型过程的一部分,此过程包括从提出相关数据问题并创建模型以解答这些问题到将模型部署到工作环境的所有事情。
此过程可以使用下列六个基本步骤进行定义:
1)定义问题
2)准备数据
3)浏览数据
4)生成模型
5)浏览和验证模型
6)部署和更新模型
图2-2典型数据挖掘系统的结构
2.4SQLSEVER概述
SQLServer2012不仅延续现有数据平台的强大能力,全面支持云技术与平台,并且能够快速构建相应的解决方案实现私有云与公有云之间数据的扩展与应用的迁移。
SQLServer2012提供对企业基础架构最高级别的支持—专门针对关键业务应用的多种功能与解决方案可以提供最高级别的可用性及性能。
在业界领先的商业智能领领域,SQLServer2012提供了更多更全面的功能以满足不同人群对数据以及信息的需求,包括支持来自于不同网络环境的数据的交互,全面的自助分析等创新功能。
针对大数据以及数据仓库,SQLServer2012提供从数TB到数百TB全面端到端的解决方案。
做为微软的信息平台解决方案,SQLServer2012的发布,可以帮助数以千计的企业用户突破性地快速实现各种数据体验,完全释放对企业的洞察力。
第3章用户上网行为分析功能设计
3.1系统功能结构设计
通过对开发系统所用到技术以及
(1)日志文件类型转换。
进行Firefox浏览器日志文件格式的分析归类,为设计和实现Firefox浏览器用户上网行为分析提供数据基础。
(2)连接数据库,进行数据导入,有效管理日志文件分析得到的数据。
提出分析、查询调用数据库数据文件的解决方案。
(3)实现用户上网行为分析,进行可视化数据呈现。
3.2功能模块设计
该模块主要是实现用户对历史数据的操作功能。
用户能通过该模块对历史数据进行导入、检索、备份。
①数据的导入功能。
系统以ado方式访问SQLServer2005数据库,并按列导入数据。
②各类数据查询检索功能。
该部分主要响应用户对数据的查询操作,根据用户请求的响应查询信息,查询的部分包括:
url、cookies名称、图片类型和查询相关字段的关键字等,并将查询的内容进行表格化展示。
日志文件的处理:
(1)找到Firefox浏览器原始缓存文件夹:
图3-1log原始文件部分截取
(2)大致浏览,使用SQL的导入导出功能,按要求导入有用信息。
对log.txt使用数据架构信息文件,则对应的项应为[log.txt]。
(3)ADO方式访问SQLServer数据库,
classCAdoDbm
{
_ConnectionPtrm_pConn;
//连接对象
_RecordsetPtrm_pSet;
//当前数据集
longGetRecordsetRowCount();
longGetRecordsetColumnCount();
protected:
BOOLConnect(char*pConnStr);
//连接数据库
voidCloseCon();
//关闭连接,释放系统资源
voidCloseSet();
voidGetRecordset(_bstr_tbstrSql);
boolIsSetExist();
public:
CAdoDbm(char*pStrConn);
virtual~CAdoDbm();
staticchar*AccessStr(char*pDBName);
staticchar*Sql2005Str(char*pDBName,char*pServer="
127.0.0.1"
);
voidGetRecordset(char*pStrSql);
//返回数据集
boolGetTableData(_variant_t&
Var,longRow,longColumn);
//查询后,取得表内某个单元值
boolGetTableField(_variant_t&
Var,longColumn);
//查询后,取得表内某个域名
boolIsConn();
intm_RowCount,m_ColumnCount;
//表的行数和列数
//操作
BOOLExecuteCommitedSQL(char*pStrSql);
//执行并提交数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 创新 报告
![提示](https://static.bdocx.com/images/bang_tan.gif)