数据挖掘在公安系统的应用Word下载.docx
- 文档编号:15260554
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:20
- 大小:627.85KB
数据挖掘在公安系统的应用Word下载.docx
《数据挖掘在公安系统的应用Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘在公安系统的应用Word下载.docx(20页珍藏版)》请在冰豆网上搜索。
但是面对大量的数据,迫使人们不断寻找新的工具,来对企业的运营规律进行探索,为商业决策提供有价值的信息,使企业获得利润。
能满足企业这一迫切需求的强有力的工具就是数据挖掘。
对于企业而言,数据挖掘有助于发现业务的趋势,揭示已知的事实,预测未知的结果。
从这个意义上讲,知识是力量,数据挖掘是财富。
报告和商业智能解决方案对于了解过去和现在的状况是非常有用的。
但是,预测分析解决方案还能使您预见未来的发展状况,让您的机构能够先发制人,而不是处于被动。
预测分析解决方案将复杂的统计方法和机器学习技术应用到数据之中,通过使用预测分析技术来揭示隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势。
经过20年的努力,公安系统的信息化建设从无到有、从小到大,已具相当规模,目前已经建成连接全国各级公安机关数万台电脑的公安信息网,大量业务信息系统已经得到推广和应用,各种信息得到网上共享。
由于行业的特殊性也决定了信息系统的复杂多样性,从110接处警、居民户籍资料、犯罪分子和案件资料、机动车和驾驶员信息、交通管理信息、出入境人员、消防管理、监管罪犯、旅馆流动人口等。
据粗略统计,仅一个地市级公安局业务信息系统已多达数十种,数据记录数已达上千万之多,数据库总容量达几个G。
尽管许多业务信息系统逐步从微机个人数据库移植到大型数据库,但对信息的处理还基本停留在增、删、改、查询、统计等传统功能上,缺乏智能化的分析功能。
可以说其事务性功能已经基本完善,但分析功能还相当欠缺,以低层信息的简单应用为主向以高端信息的挖掘为主转移成为了今后发展的必然方向,“金盾工程”对此也提出了相应要求。
数据仓库和数据挖掘技术为这一切提供了可能,在案例分析、行为分析、司法调查、领导决策等方面,都大有可为。
2.工程技术规范书
2.1支持主流UNIX和Window平台
ClementineServer支持的操作系统平台包括:
WindowsServer™2000或Windows2000Professional以上,RedHat®
EnterpriseLinux®
,SunSolaris™9/10,HP-UX11i,IBMAIX®
5L,version5.2以上;
ClementineClient支持Windows平台。
2.2支持图形化界面、菜单驱动、拖拉式的操作
Clementine按照数据流的方式构建数据挖掘模型,它提供了数据源、记录处理、字段处理、图形、模型和输出等6大类结点,建立数据挖掘模型时只需要把相关节点通过鼠标拖拉的方式连接在一起就可以了,整个过程基本不需要任何编程序工作。
具体界面如下图所示。
数据流区域(Streamcanvas):
数据流区域是Clementine窗口中最大的区域,在这个区域可以建立数据流,也可以对数据流进行操作。
每次在Clementine中可以多个数据流同时进行工作,或者是在同一个数据流区域有多个数据流,或者新打开一个数据流文件。
在一项任务中,数据流被存储在管理器中。
选项板区(Palettes):
位于Clementine窗口底端。
每个包含了一组相关的可以用来加到数据流中的节点。
比如:
Sources包含了可以把数据读入模型的节点,Graphs包含了可以用于可视化探索数据的节点,Favorites包含了数据挖掘默认的常用节点。
当你更熟悉Clementine后,就可以按照自己的要求来定制这些内容。
管理器(Managers):
在Clementine窗口右上有3种管理器。
分别是Streams,Outputs和Models,这是用来查看和管理相应类型的对象。
Streams是用来打开,重命名,保存和删除在数据流区域中建的数据流。
而Outputs则是用来储存Clementine输出,例如图表之类。
还可以直接利用这个管理器来储存输出的结果对象。
Models是所有管理器中最强大的,它包含了机器学习和Clementine实施建模的结果。
这些模型可以通过Models直接浏览,也可以加入到数据流中。
项目(Projects):
Clementine窗口右下部是Projects窗口,这个窗口提供了一种在Clementine中组织数据挖掘各个步骤的有效的方法。
报告窗口(Reportwindow):
选项板区的下面就是报告窗口,它记录的是各种不同操作过程的响应,比如当数据被读入数据流时。
状态窗口(Statuswindow):
同样是在选项板区的下面,这个窗口可以告诉用户Clementine正在进行什么操作;
同时如果需要用户对操作回应时可以给出提示。
2.3提供丰富的数据挖掘模型和灵活算法
Clementine中提供了多种数据挖掘建模方法,这些方法分别来自于机器学习,人工智能和统计学。
每种方法都有自己的长处,并且可以整合在一起使用,可以灵活的解决各种类型的问题。
这些模型可以分成三类:
预测模型、聚类模型、关联模型。
预测模型也称为监督学习,Clementine中的预测模型算法,包括神经网络算法(快速、动态、多重、修剪、径向基函数网络、彻底修剪),四个不同的规则归纳算法(C5.0、CHAID、QUEST、C&
RT),线性回归和Logistic回归算法(进入、逐步筛选、前进、后退),一个序列探测算法;
聚类模型也称为无监督学习,Clementine中的聚类模型算法,包括Kohonen网络算法,K-means聚类算法,两步聚类算法;
关联模型可以看成推广的预测模型,Clementine中的关联模型算法,包括Apriori算法、GRI算法和Carma算法。
Clementine中的每个模型都有专家选项,用户可以自由改变算法的参数从而灵活的根据不同的条件制定不同的算法。
2.4具有多模型的整合能力,使得生成的模型更加稳定和高效
Clementine通过数据流的方式构建数据挖掘模型,用户只需要把不同模型节点按照需求顺次排列连接就可以达到整合多个模型的目的。
举例来说:
(1)直接连接神经网络模型节点生成的神经网络节点和C5.0规则模型节点生成的C5.0规则节点,然后通过分析节点和评估图节点可以比较这两个模型;
(2)在神经网络模型之前使用C5.0规则模型,通过C5.0规则模型节点生成过滤节点,过滤对输出字段影响很小的输入字段,然后使用神经网络模型节点连接过滤字段,这样可以减少神经网络模型的输入字段,加快训练神经网络的速度;
(3)在神经网络模型之后使用C5.0规则模型,直接使用C5.0规则模型节点连接神经网络模型节点,由于规则相对容易解释,这样可以帮助解释神经网络的预测。
另外Clementine还提供了多种模型效果的评估技术和思路(例如收益图表、功效图表、投资回报图表、利润图表、响应图表、表格、统计量等)来检验模型的效果,从而使用户可以选择最稳定、高效的模型进行发布。
2.5要求数据挖掘流程易于管理、可再利用、可充分共享
Clementine建立的所有数据流、模型、图形和表格结果都可以保存在数据挖掘项目中(例如SPSSClementine中提供支持CRISP-DM的数据挖掘项目管理功能),从而保证了数据挖掘项目的可重用性和充分共享。
另外,Clementine还根据行业特点和在全球的成功应用经验,建立了包括电信行业(客户保持和增加交叉销售)、CRM(针对客户的获取和增长,提高反馈率并减少客户流失)、微阵列(研究和疾病相关的基因序列并找到治愈手段)、欺诈探测(发现金融交易和索赔中的欺诈和异常行为)等多种数据挖掘应用模板(ClementineCATs),这些模板可以使用户快速了解数据挖掘的行业应用,并把其中的内容在自己的工作中得到应用(重复使用)。
Clementine用户可以对相关节点进行数据缓存,数据就可以从缓存区读取而不是从数据源中读取,用户还可以以SPSS文件的形式保存缓存区的内容,可重复利用缓存区的数据和加快数据挖掘流程速度。
Clementine中用户还可以封装数据流的各个部分从而使多个节点组成一个单独的超级节点,这样会给数据挖掘工作者提供很大的方便:
流将变得更加整洁、更加易于处理;
众多节点可以组合成一个特定业务的超级节点;
超级节点能够输出到模型库中,以便在多个数据挖掘工程中重复使用。
2.6提供模型评估方法
Clementine提供了包括评估图、表格以及统计分析等多种模型评估方式。
Clementine提供的评估图包括:
收益图表、功效图表、投资回报图表、利润图表、响应图表。
评估图表还可以被累积,累积图表通常可以使模型的整体运行状态变得更佳。
此外,还可以利用Clementine输出面板中的分析、矩阵、统计等节点输出表格、统计量等对模型进行评估。
2.7数据挖掘的结果可以集成于其它的应用中
Clementine可以把数据挖掘模型导出成SQL语句或者PMML(XML的一个变种)格式文件集成于其它应用系统中;
另一方面,Clementine还可通过一些专门的产品或技术(例如ClementineSolutionPublisher),把整个数据挖掘流程导出,供应用系统(C++或Java程序)通过API进行调用,从而达到数据挖掘结果脱离挖掘系统环境集成到应用系统中的目的。
Clementine的另一个发布工具Cleo提供交互式Web部署。
Clementine建立预测模型后,通过点击Cleo部署向导创建瘦客户端的Web应用,从而在Web上使用预测模型。
2.8大数据量的处理要求
ClementineServer通过充分挖掘数据库管理系统(DatabaseManagementSystem,DBMS)自身的数据管理和运算能力,如数据库索引和优化等操作,并结合自身的处理能力,使数据挖掘能力最大化。
这种架构的具体流程模式如下:
ClementineServer接受来自客户端的服务请求,其中部分请求被转移到DBMS中,通过SQL子句在数据库内完成部分操作,那些不能由DBMS完成的服务请求则在功能更强大的ClementineServer端执行,最后统一由ClementineServer将处理结果返回给客户端。
这种方法充分利用了DBMS的处理能力,最小化数据的网络传输,从而提高了Clementine处理大数据量的能力。
2.9直接在数据仓库的数据库内进行数据挖掘
作为开放架构体系,Clementine支持完全的数据库内挖掘。
Clementine可以在DB2/OracleDatabase内实现关键的数据挖掘任务,如数据准备、数据建模和模型评估等,从而极大地提高数据挖掘的效率,并获得更大的收益。
具体而言,Clementine的In-database功能可以整合IBMIntelligenceMiner、OracleDataMining、SQLServer提供的数据挖掘算法。
通过本地可视
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 公安系统 应用