数据挖掘技术在监狱再犯率文档格式.docx
- 文档编号:21624781
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:29
- 大小:320.66KB
数据挖掘技术在监狱再犯率文档格式.docx
《数据挖掘技术在监狱再犯率文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术在监狱再犯率文档格式.docx(29页珍藏版)》请在冰豆网上搜索。
世界各国的刑事司法工作者、犯罪学家和社会治安人员早就发现,社会上所发生的大量刑事犯罪案件,尤其是手段极其残忍的大案大多是只占社会总人数极小比率、以前就犯过罪、受过刑事处罚的人所干的。
这些人中的许多人尽管受到过刑事处罚,一旦恢复了自由,很快就再次作案,继续危害社会。
因此,防范有过刑事犯罪记录的人重新犯罪应当是社会预防犯罪工作的战略重点之一。
然而,并非所有的刑释人员都有同样的重新犯罪的可能性,许多刑释人员在获释后并未犯罪,如美国刑释人员的重新犯罪率为46.8%,日本的重新犯罪率为57.2%。
而我国大陆地区的刑释人员释放后3年内又受到刑罚或劳教惩处的比率要低得多。
其中上海市监狱管理局、上海市社区矫正工作办公室开展的《关于2009年度上海籍刑释人员改造质量的调查报告》,对2009年度上海籍刑释(含假释)人员回归社会以后的重犯罪情况进行了统计,其中重新犯罪的225人,重新犯罪率为8.56(重新犯罪率=重新犯罪人数÷
刑释人员总数)%[73]。
因此,如何对刑释人员进行分类,将其中重新犯罪可能性较大的成员从刑释人员中鉴别出来,予以重点教育和防范,就成为一项重要任务。
要完成这项任务必须对服刑人员个体重新犯罪的可能性进行准确的预测。
如能准确预测犯罪者个体将来重新犯罪的可能性大小,则不仅在他们回归社会时可以根据预测结果在他们中确定进行教育和控制防范的重点对象,在狱中也可以根据预测决定哪些罪犯不宜假释、提前释放或保外就医,甚至在法院对他们判决时,也可以把预测结果作为判别哪些被告人不宜宣告缓刑或可以不施以自由刑的依据,其对于预防犯罪的意义和作用无疑是非常重大的。
因此,各国的犯罪学家很早就开始对犯罪者进行再犯预测的研究,他们创造了各种各样的预测方法,并不断予以改进。
自1950年起陆续召开的各届国际犯罪学会议和国际刑法和监狱法会议上,犯罪人的未来行为预测问题一直成为广受关注的重要议题。
1.2本文的内容和意义
随着现代信息技术、通讯技术、数据库技术、网络技术、数字化图书馆和计算机技术的高速发展及数据库管理系统的广泛应用,数据库存储的数据量急剧增大,据统计,全球的信息量每20个月翻一番。
传统的信息系统大部分是查询驱动的,数据库作为历史知识库对于一般的查询过程是有效的,但当数据和数据库的规模急剧增长时,传统的数据库管理系统的查询检索机制和统计分析方法己远远不能满足现实的需求,它迫切要求能够自动、智能和快速地从数据库中挖掘出有用的信息和知识。
如何迅速、准确、有效但适量地提供用户所需的信息,发现信息之间潜在的联系,支持管理决策就是数据挖掘和数据仓库要解决的课题。
但是,罪犯再犯率中的数据挖掘技术的应用更多的还处于研究阶段,再犯预测领域真正实现数据挖掘系统的案例并不是很多。
本文的目的是为了进一步探索数据挖掘在再犯预测的应用,具体以再犯预测中再犯率高低的问题为例,研究利用现有的数据挖掘工具得到关于罪犯信息的相关特征值,然后引入最大熵原理来构建相关模型。
需要再犯预测的部门可以利用该模型更好地对罪犯进行分析。
本论文的学术意义主要有以下几点:
(1)通过实例来证明最大熵模型在再犯预测中的作用。
(2)通过对最大熵模型的介绍,将其引入数据挖掘的研究中,可以为今后应用在其他研究方向的项目时作为参考。
第二章数据挖掘现状及相关技术
作为一个持续的流动的收押罪犯的政府机关,各个监狱必然积累了海量的数据。
从理论上说,理应可以从这些数据中得到充足的信息来解决各个层次的决策问题。
而目前利用数据库技术对这些数据的分析和利用的速度,已经远远落后于数据产生和存储的速度,同时计算机所产生和积累的结果也不能被直接应用,仍需要有关专业人士的分析解释,这一过程耗费了大量的精力。
而运用数据挖掘(DataMining)方法能够高效率的处理大量历史和现有数据,能够从数据库中发现一些潜在的、有价值的信息来应用于经营决策中,就能为数据中直接发掘相关知识提供了可能。
在当前的情况下,数据的分析和挖掘正变得越来越重要。
利用数据挖掘,将能够获得便于操作的知识结论(挖掘结果),可以将分析结果应用到实际中,进一步提升决策质量。
在通常的行业中,利用数据挖掘技术可以进行如下分析:
通过关联规则分析法,分析不同层次的关联,挖掘内在模式,提供关联模式;
通过专家评分方法,能够提供给分析人员多个构造好的指标综合评分;
通过运用于告警分析的决策树模型,可以挖掘出隐藏在报警现象背后的规律,提前发现风险;
通过基于神经网络的聚类分析、预测分析,能够做到从容应对问题。
下文将介绍数据挖掘的现状和相关技术。
2.1数据仓库
1982年,W.H.Inmon在其《建立数据仓库》(BuildingthedataWarehouse)一书中提出了“数据仓库(DW,DataWarehouse)”的概念,对数据仓库的定义是[1].:
“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。
根据以上对数据仓库的定义,数据仓库也就具有了以下四个特征,其分别是面向主题性、集成性、时变性、非易失性。
表1.1列出了操作型数据与分析型数据的部分区别。
传统的操作型数据库主要是用来存储日常事务处理所需的数据,操作的要求主要是删除、插入、更新和查询等。
而数据仓库中的数据是分析型数据,其存储的数据主要是用来进行分析处理的,对其的操作主要是查询和分析处理。
表1.1操作型数据和分析型数据的区别
操作性数据
分析型数据
存储的是处理时的即时数据
存储的是历史数据
面向应用的细节为主的
面向分析功能的综合数据
支持日常事务处理操作
支持管理者的决策
每次使用时处理的数据量小
分析时所用的数据量相当大
由用户的具体事务所决定
由用户某一分析需求所决定
对时间的响应要求非常高
对时间的响应要求不高
用户完全了解所要处理的事务
对处理后所得到的结果无法预知
可对其进行删除和更新
只能对超过一定时间的数据进行删除
2.2在线事务处理(OLTP)
OLTP所要存储和处理的是平日正常商务运转所需的数据。
通常一个OLTP数据库包含一些与某个特定过程相关的数据,因此根据业务需要,很多企业有多个OLTP系统运行在多种操作系统和数据库上。
虽然不同的OLTP数据库可能使用不一样的平台,但它们的功能都是服务于实时存储和更新数据。
在关系型数据库诞生以来的长久历史里,各个厂家的查询产品不断得到优化,从而使得它能有效地在OLTP系统中工作。
同时根据摩尔定律,CPU的运算能力每18个月就翻一番,使得现代OLTP系统能够支持的事务数也以飞快的速度增长。
近年来,以SQLServer2000作为数据库平台时,数据库系统的顶级基准(衡量OLTP性能的基准)是可以每分钟处理668,220个新的事务。
这个事务数的处理能力远远超过了大部分OLTP数据库的要求,但即使所用的平台能够支持大量的事务处理,OLTP数据库的设计还必须使用合适的技术,否则还是不可能支持大量事务的同时处理。
2.3数据预处理的方法
数据预处理的目的有以下几点:
从不同的数据属性中提取出对所需结论有重要影响的属性,并同时降低原始数据的维数;
或者是用来处理一些“不好”的数据,从而提高数据的质量和数据挖掘的速度[7-10]。
而可能影响数据挖掘结果的原因有:
不规范、令人费解的数据格式以及各个系统中数据意义的不通、缺少相对应可以实施的功能、挖掘结果产生的理由不充分、耗时太长等[11]。
同时在实施数据挖掘前还需要进行数据准备。
由于噪声、空缺数据和不一致数据的影响,从而使得数据极易受污染,因此需要预先对数据给予预处理。
数据预处理的一般方法包括基于粗糙集的约减方法;
基于概念树的数据浓缩方法(数据立方体、最大熵等);
基于统计分析的遗传算法和属性选取方法等[11-12]。
数据预处理包括数据收集和准备、数据清洗、数据集成、数据归约等内容,如图2.1所示。
图2.1数据预处理的过程
2.4在线分析处理(OLAP)
当管理者发现要利用在运作过程中积累的数据进行进一步的计划和决策时,数据仓库的概念就随之产生了。
如果有一个现有系统,当需要建立查询来对数据进行汇总并生成管理报表时,而解决的方法就是利用在线分析处理将用做报表和决策支持的数据和日常操作的数据分离开,从而有助于支持企业的决策[16]。
OLAP是关系型数据库的发明者和伟大的数据库研究者E.F.Codd在1993年的一份名为《ProvidingOLAPtoUserAnalysis:
AnITMandate》的白皮书中首次提出的。
NigelPendse和RichardCreeth等人将OLAP应用定义为“快速分析共享的多维信息系统”。
通常来讲,OLAP应该包括以下特性:
1多维视图
商务模型本身就是多维的。
OLAP应用中“切片”(Slice)和“钻取”(Drill)的功能就是基于多维视图的,多维视图同时还提供了对数据库中信息的随意访问[4-8]。
通过OLAP的应用,管理者能够通过在任何维和级别上进行数据汇总来分析数据。
例如,可以很容易地通过OLAP得到某个城市(或者某个地区)、某个品牌的产品在某月(或财年)的利润。
OLAP必须向用户屏蔽复杂的查询语法,而以简单而又有意义的方式支持这些数据视图[16]。
在这种应用过程中,管理者就不必涉及到编写SQL语句,也不必去理解复杂的表结构了。
多维数据视图通常也被称做数据立方(DataCube)。
然而由于立方体常被理解为只有三个维,这个名称似乎不太合适。
真正的多维数据立方可以象相关模型一样有很多维,确切地说是超立方。
2强大的计算能力
大多数OLAP应用一般只是在数据立方一个立方或某个维上做简单的汇总工作,但有时其中的部分应用也会执行比较复杂的计算,因此对OLAP应用来说,拥有支持复杂计算的能力是很重要的。
OLAP应用中另一个方面是趋势分析,它包括了数学表达式以及复杂的算法,如平均值和百分比的计算。
正是拥有能够执行复杂计算的强大的计算能力,使得OLAP应用能顺利地把原始数据成功地转化为人们所需要的信息。
3时间信息
几乎所有OLAP应用都拥有的共同维就是时间,很难找到一个没有时间的模型。
用来比较和判断某个商务过程的性能总是需要时间来度量的。
例如,可以将某个产品这个月的销售情况和上个月的情况做比较,或者将某个分公司上个季度的利润和该分公司去年同期的利润相对比。
2.5数据挖掘
为了便于分析,许多企业将日常业务操作中收集到的数据积累在数据仓库或数据集市中,管理者再利用对这些数据所做的分析进行决策。
为了对数据进行分析,就需要利用到数据挖掘(DataMining,DM)的相关技术。
图2.2所示就是数据挖掘的一般过程。
图2.2数据挖掘的一般过程
数据挖掘是指通过从数据仓库中提取出崭新的、可靠的、有作用的、有效的并能被人理解的模式(Pattern)的高级处理过程。
它是一个发现知识的过程,通常依靠计算机对数据进行穷举式的搜索,以便能够在过程中发现模式和趋势[12,17-21]。
模式可以看作是知识,它给出了数据之间的关系或是数据隐含的某些特性,是以一种更抽象的描述来说明数据包含的信息。
可以用图形、文字表达式等方式表示模式。
所谓处理过程指的是通过多步骤分析对大量信息进行处理的过程,包括了数据预处理、模式提取以及知识优化等[13]。
所谓可靠、新式和有作用是指数据挖掘所发现的模式必须有一定的正确性和可用性,否则数据挖掘就没有意义了。
数据挖掘模型是指用以训练模型的数据源的所在地。
这个数据源可以是一个关系型数据库如SQLServer或Oracle中的关系表,这种模型称为关系型OLAP,简称ROLAP;
也可以是OLAP立方,这样的模型称为多维OLAP,简称MOLAP。
若是综合利用前面两者的优点的方式,被称为混合OLAP或者HOLAP。
第三章最大熵原理在再犯预测运用中的建模
3.1最大信息熵及原理
3.1.1热力学及分子运动论中的熵
在引入最大信息熵及其原理前,先介绍一下熵这一概念的由来。
熵这一概念最初应用于热力学[57,58],其表征的是分子的混乱程度。
克劳修斯早在1865年的热力学研究中引入了这一概念,当时的目的是说明宏观过程的不可逆性。
这里提出的宏观过程的不可逆性实际上就是指体系有一种自发的从存在概率较小的状态变化到概率较大的状态的趋势。
这种存在概率不断变大的不可逆过程就是一种熵增过程。
以下举例说明熵增原理,当把一滴红墨水滴到一杯水中,红色墨水的分子将总是自发地向四周扩散,最后将使得整杯水变成一杯均匀的浅红色溶液,也就是达到了红墨水的分子和水分子的一种均匀混合的状态。
这种状态总是两种分子的混合程度最大的状态,也是这两种分子的在空间分布最为混乱的情况。
因此在分子扩散的过程中就随之产生了无序程度的增加。
因此在分子运动论中一般认为熵就是分子混乱度的表征[59]。
按照分子运动论中对熵所作的解释,使得熵与概率联系起来,此时可以用熵的概念来对“不确定性”进行研究。
当熵与概率的联系建立之后,熵概念也就可以得到广泛应用,慢慢地对熵的应用和研究远远超出热力学和分子运动论的范畴,其概念被使用在通讯、信息科学和控制论等领域。
3.1.2最大信息熵原理
3.1.2.1熵增原理
每一个孤立系统的熵都将自发地趋于极大。
当系统的熵处于最小值时,即能量最集中、有效能量最大时,此时整个系统也将处于最有序的状态,相反则为最无序状态。
熵增原理指出了自然界越变越无序这一事实。
3.1.2.2信息熵原理
信息熵原理指出,一个系统的无组织程度的度量就是它的熵。
熵的值越大,事件越不确定;
熵等于0,事件则是确定的[60]。
举例如下:
抛硬币
3.1.2.3最大熵原理
本文将最大信息熵原理的表达为:
在所有分布中,挑选出那些在满足特定约束条件下(通常是确定的某些随机变量的均值)能使这个分布的信息熵达到最大值的分布作为这个系统的分布。
也就是当满足特定约束条件下,分布中熵值最大的就会是最符合实际的分布[61]。
3.2最大熵模型
可以将数据挖掘中的许多分类问题都归结为统计分类问题,其任务是估计目标类y
Y在某种情况(x
X)的条件下出现的概率,即p(
)。
大规模的数据集提供了二元(x,y)的一些相关信息,但不管数据集的规模多大,都无法提供出“全部”二元组(x,y)的信息。
所以要完全精确地确定p(
)一般是无法实现的。
那么这一问题就变化为要找到一种方法来可靠地估计p(
引入最大熵模型的解决方法,就是尽量在符合已知事件的情况下,使得未知事件发生的概率尽可能均匀,也就是得到最大熵。
通常在研究中采用的是条件最大熵模型,所以在本文中的最大熵模型指的就是条件最大熵模型。
3.2.1最大熵模型框架
统计学建模的目标是先构造一个随机模型,再通过该模型来估计一个随机过程的行为。
这就使得最大熵模型要面对两个关键的问题:
一个是如何能够选择一个反映随机过程的统计量,即特征选择问题;
另一个问题是如何应用给定的统计量得到一个精确的模型,即模型选择问题。
为解决这两个问题最大熵模型提供了有效的方法(图3.1)[62]。
图3.1一般形式的最大熵模型框架[63]
整个最大熵模型分为两个过程,在执行过程中,应用程序会先对待处理的数据进行特征选择,以得到相对应的应用实例
,由执行系统套用训练过程中生成的最大熵模型进行计算,得到一个概率p(
),将其交还给应用程序就可以完成一个的应用流程;
而在训练过程中,系统对训练集中的数据进行特征选择,可以得到相关的训练样本集(x,y),再使用模型选择算法进行对应的模型训练,就可以得到最大熵模型,交付执行系统使用。
3.2.2特征函数与约束方程
训练数据集虽然不可能提供所有的信息,但是可以给出部分二元组(x,y)的统计信息,利用这些可以得到的训练样本来进行相关建模的时候,模型必须要重现这些统计信息。
因此,在这里引入特征函数的概念来表示这部分的统计信息。
一般情况下,在最大熵模型中,特征函数会是一个二值函数,即
。
在概率分布中,
除了表示整个特征函数
,还表示特征
对某个特定的训练样本(x,y)的取值。
当然特征函数的值可以不是二值的,可以取其它值。
关于特征函数取值的详细讨论,可参考本文4.4.1节。
在经验分布
中的经验期望就是模型的统计量,可以表示为:
(3.1)相对应地,特征函数
的模型期望可以表示为:
(3.2)其中
是在训练样本中x的概率分布。
为了使模型重现训练样本中的统计量,限制
的经验期望与模型期望相等,即:
(3.3)把公式3.1、3.2、3.3结合起来,得到一个方程:
这一方程称为约束方程,它可以做到把与训练样本不一致的模型排除。
通过约束方程就找到了表示训练数据统计行为的方法
和能够使模型体现这种统计行为的方法
在最大熵的讨论中,“约束”和“特征”一般都是反复出现,所以在此要注意两者之间的区别:
特征是一个函数,而约束则是特征的经验期望等于模型期望的特定情况。
3.3最大熵模型算法
3.3.1最大熵模型选择算法
在处理实际应用中的问题时,一般是无法通过分析得到
的,这时只能通过数值方法来解决,这一求解参数的过程被称为模型选择。
以数值优化的角度来看
,其是一个平滑的连续凸函数,也就是说有许多数值化的方法可以用来求解
,这就包括坐标Brown算法、共轭梯度法、上升法、梯度上升法等[62]。
为了解决最大熵模型的参数求解问题,Darroch等人提出了迭代收敛(GeneralIterativeScaling,GIS)方法[66],Berger等人提出了另一种改进的迭代收敛算法(ImprovedIterativeScaling,IIS)[62]。
具体的算法及其推导过程可以参考相关的文献。
3.3.2特征选择算法
按照本章3.2.1节所述,最大熵建模要解决的是两个问题:
特征选择和模型选择问题。
通过前文所述解决了最大熵建模的模型选择问题,但同时还需要解决如何得到算法中使用的特征、约束的问题,即特征选择问题。
在实际应用中,最大熵方法可以不考虑特征的选择问题,任何特征都可以使用在模型中,它只是一种把特征集成到模型中的方法而已。
但是因为特征空间大小很可能是不可测量的,特征的选择问题也就成为了一个关键的问题。
从效率的角度考虑,凭借人力来执行特征选择是不现实的,因此在最大熵模型中就提供了一定的解决方法来解决这一问题。
在特征选择中通常采用的是基于频度阈值的特征选择这一方法,其理论依据是:
只有那部分出现频度大于频度阈值的特征才能代表了数据的特性,不经常出现的或者说出现频率明显低于频度阈值的特征就可能是不相关的噪声。
通常选择在训练集中某一候选特征的出现次数大于阈值的特征,来作为某次特征选择的结果。
通常是依靠多次实验来确定阈值的最优值。
Berger等提出了在条件最大熵方法中最近经常使用的的两个增量式特征选择(IncrementalFeatureSelection,IFS)算法:
即基本算法和近似算法[62]。
(1)基本算法是在每步都利用迭代的算法去估计新特征集合下的模型,可以计算出一个最大似然增益。
该算法的明显缺点是计算量过大,每个特征在选取时都要调用IIS算法计算所有的候选特征,还要计算训练集数据中的对数似然,所以说此算法在实际应用中是不可行的。
(2)近似算法是上面的基本算法的基础的前提下,为了能够显著减少计算量而进行的一种近似:
即假设如果在增加一个特征时,在模型中除了此新加入的特征参数有所改变外,其它己经存在的特征参数将能够保持不变,或者说当加入一个新特征后的模型仍然可以依赖原有模型和参数。
这种方法的近似可以使得引入新特征时所导致的对数似然增益的计算得以简化,成为一个一维的优化问题,这样就可以做到大量减少计算的复杂度。
但是此种算法也有问题存在:
就是有可能其结果是选择了具有最大近似增益的特征,却因此而忽略了具有最大增益的特征。
最后,近似算法虽然解决了计算的可行性,但当应用在实际情况时,发现还是很耗时。
3.4最大熵模型的优点
采用最大熵模型的方法可以把模型与概率学的相关知识分成为两个模块进行分别处理。
所产生的模型可以被多次反复利用,当针对不同的任务时,所要解决的只是选择的特征不同。
最大熵框架所具有的通用性和重用性可以允许实验者利用在其他不同任务中已经产生的参数生成程序。
最大熵中估计参数的实质是与任务的不同无关的,在应用中可以达到满足其他的分类问题的要求。
尤其重要的是,尽管每个任务在复杂性上是不同的,而最大熵模型却可以在每个任务中都表现出相当好的性能。
此外通过各种实验产生的结果,可以表明最大熵模型本身对于任务的处理可以造成以下优点[67-68]。
(1)可控制细微的结果。
在最大熵模型建立时,可以设计为不同变量间的细微关系建模,同时能够做到有选择地选取特征。
在传统的预测模型技术中,这样的选取特征是不可能实现的。
(2)可以避免做未经验证的假设。
在传统的预测模型中,例如决策树或是神经网络中,为了预测的需要都要对信息做一些假设,这就难以避免错误的发生。
而最大熵模型会承认现有的事实,对所选特征是不存在需要独立性假设的问题的。
(3)可以做到简单易懂。
本文中涉及的特征选择不需要有渊博的知识或是相关技术,只需要涉及数据集中的数据本身。
与比其他方法相比,很少依赖专门的知识、预处理或是数据库,因此使得该模型可以更容易理解和移植。
虽然特征明显的被简化,但它们仍可以有效地应用在数据挖掘中。
第四章再犯率预测系统的实现
4.1早期的再犯率预测方法
20世纪以前,各国对犯罪者将来重新犯罪的危险性或矫治可能性的判断,往往仅根据判断者个人的知识经验作主观的判断,如司法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 监狱 再犯