从数理统计到数据挖掘(课件)PPT文档格式.ppt
- 文档编号:13196233
- 上传时间:2022-10-08
- 格式:PPT
- 页数:33
- 大小:955.50KB
从数理统计到数据挖掘(课件)PPT文档格式.ppt
《从数理统计到数据挖掘(课件)PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《从数理统计到数据挖掘(课件)PPT文档格式.ppt(33页珍藏版)》请在冰豆网上搜索。
,第2章从数理统计数据挖掘,2.1.3从数理统计到数据挖掘,数据挖掘有时候不是一次性的实验,尽管数据集是确定的,它更应该被看作是一个不断迭代的过程。
从一个角度检查数据可以解释结果,以相关的观点检查可能会更接近规律。
关键是,极少情形会知道哪一类模式是有意义的。
数据挖掘的本质是发现非预期的模式同样非预期的模式要以非预期的方法来发现。
第2章从数理统计数据挖掘,从数理统计到数据挖掘,数据挖掘不能替代传统的统计分析技术,相反,它是统计分析方法学的延伸和扩展。
数据挖掘算法有些本来就是统计的方法,数据挖掘仍然是计算机行业的一个方向,而不是广义统计的一部分。
同时,对于数据挖掘算法中来自机器学习和人工智能的一部分,其核心是规则,而规则内部的获得机制虽然是基于数理统计的,但是这种技术本身已经不属于统计了。
第2章从数理统计数据挖掘,2.2数理统计与数据库技术的结合,数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观及宏观的统计、分析、综合和推理,用以指导实际问题的求解,力图发现事物间的相互联系,甚至可利用已有的数据对未来的活动进行预测。
数理统计是数学中最重要、最活跃的学科之一,然而它和数据库技术结合得并不算快,但一旦有了从数据查询到知识发现、从数据演绎到数据挖掘的要求,则数理统计就会获得新的生命力。
数理统计作为数据挖掘的3个主要支柱之一,有许多寻找变量之间规律性的方法,而回归分析方法是其中最有效的方法之一。
第2章从数理统计数据挖掘,2.3回归分析的基本概念,变量之间的关系可分为两类:
一类是确定性的关系,也就是通常所说的函数关系;
另一类是非确定性的关系,变量之间的这种非确定性关系称为相关关系。
设有两个变量X和Y,其中X是可以精确测量或控制的非随机变量,而Y是随机变量,X的变化将使Y发生相应的变化,但它们之间的变化关系是不确定的,若当X取得任一可能值x时,Y相应地服从一定的概率分布,则称随机变量X与变量Y之间存在相关关系。
第2章从数理统计数据挖掘,设进行次独立的试验,测得试验数据如下表,其中及分别是变量X与随机变量Y在第i次试验中的观测值。
取X=x时随机变量Y的数学期望时的估计值,即,显然,当变化时,,是的函数,记作,于是,可以用一个确定的函数关系式,(21),(22),(23),第2章从数理统计数据挖掘,回归分析,大致地描述与之间的相关关系,函数称为关于的回归函数,方程(23)称为关于的回归方程。
回归方程反映了的数学期望E(Y)随的变化而变化的规律性。
在确定了函数的类型后,就可以设其中为未知参数。
于是,上述问题就归结为:
如何根据试验数据合理地选择参数的估计值使方程,在一定的意义下“最佳地”表现与之间的相关关系。
解决上述问题的方法,可以利用最小二乘法。
第2章从数理统计数据挖掘,回归分析,2.4线性回归方程,为了便于确定回归函数中未知参数的值,首先讨论变量与之间存在线性相关关系的情形。
设变量与之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围。
于是,可以用线性方程,大致地描述变量与之间的关系。
设随机变量,按最小二乘法确定未知参数及时,有偏差平方和,为了使S取得最小值,分别求对及的偏导数,并令它们等于零,得方程组,第2章从数理统计数据挖掘,整理得,解方程组得,上式中,其中观测值的样本方差;
第2章从数理统计数据挖掘,线性回归方程,为了以后进一步分析的需要,再引进,其中是观测值的样本方差。
将由公式(2-5)计算得到的及的值代入(2-10),就得到所求的线性方程,这个方程称为关于的线性回归方程,称为回归系数,对应的直线称为回归直线。
第2章从数理统计数据挖掘,线性回归方程,2.5线性相关的显著性检验,2.5.1线性回归的方差分析,线性回归得方差分析表如下:
1,2.5.2相关系数的显著性检验,相关系数的显著性检验法,一系列变化得,第2章从数理统计数据挖掘,
(1)当时,则认为与之间的线性相关关系不显著,或者不存在线性相关关系。
(2)当时,则认为与之间的线性相关关系显著。
(3)当时,则认为与之间的线性相关关系特别显著。
综上所述,讨论随机变量与变量之间的线性回归问题,一般应按以下步骤进行。
相关系数的显著性检验,第2章从数理统计数据挖掘,
(1)先根据试验数据计算,再计算样本相关系数的值;
然后,查相关系数显著性检验表,得到相关系数临界值,从而推断变量与之间的线性相关关系是否显著。
(2)若与之间的线性相关关系显著,则计算的值,可得关于的线性回归方程,它大致描述了与之间的变化规律。
相关系数的显著性检验,第2章从数理统计数据挖掘,2.6非线性回归分析,2.6.1化非线性回归为线性回归根据专业知识或散点图,选择适当的曲线回归方程其中及为未知参数。
为了求参数及的估计值,往往可以通过变量置换,把非线性回归化为线性回归,然后用上述线性回归方法来确定这些参数的估计值。
第2章从数理统计数据挖掘,2.6非线性回归分析,2.6.2多项式回归设回归方程为这里假设多项式的次数小于试验次数。
因而可以利用最小二乘法确定系数的值。
最常用的是二次或三次多项式。
第2章从数理统计数据挖掘,2.7多元线性回归分析,2.7.1多元线性回归方程2.7.2多元线性回归的方差分析检验原假设是否成立最后写出多元线性回归的方差分析表如下:
第2章从数理统计数据挖掘,与之间的线性相关关系显著性判断规则如下,
(1)若则接受原假设,即认为与之间的线性相关关系不显著。
(2)若则拒绝原假设,即认为与之间的线性相关关系显著。
(3)若则可以认为与之间的线性相关关系特别显著。
第2章从数理统计数据挖掘,多元线性回归的方差分析,2.8一般情况下的回归分析,2.8.1一般情况下的回归方程最小二乘估计原理:
当参数满足时,函数达到最小值。
若矩阵是非奇异的,则最小值由唯一给出。
第2章从数理统计数据挖掘,2.8.2一般情况下的参数估计,最小二乘法可以用于动态系统的参数估计。
设系统输入序列已施加于系统并测得相应的输出序列,未知参数为,第2章从数理统计数据挖掘,一般情况下的参数估计,又若矩阵是非奇异的,则最小二乘估计由式(276)给出。
粗略地讲,只要输入信号是足够丰富的,矩阵就是非奇异的。
第2章从数理统计数据挖掘,2.9逐步回归分析的软件设计,逐步回归分析软件应具有以下功能:
(1)从一组数据出发,确定变量间的定量关系式。
(2)对关系式的可信度程度进行统计检验。
(3)从影响着某一变量的许多变量中判断哪些变量的影响是显著的,哪些是不显著的。
第2章从数理统计数据挖掘,逐步回归分析的软件设计,根据对逐步回归分析软件功能的分析,得出其数据流图如图所示。
第2章从数理统计数据挖掘,图2-1逐步回归分析软件数据流图,2.10锻模设计准则的制定,2.10.1研究的内容
(1)飞边尺寸设计准则的制定;
(2)飞边金属消耗设计准则的制定。
2.10.2资料收集与数据处理2.10.3飞边尺寸设计准则的制定
(1)数学模型建立的依据
(2)数学模型的建立和回归分析样本表(3)结论2.10.4飞边金属消耗设计准则的制定
(1)数学模型建立的依据
(2)数学模型的建立和回归分析样本表(3)结论,第2章从数理统计数据挖掘,本章小结,本章阐述了数据挖掘与数理统计的关系,对数理统计和数据库技术的结合进行了讨论,由此说明了数理统计在数据挖掘中的基础地位。
重点讨论了数理统计中的核心分析方法回归分析法。
就回归分析的基本概念、线性回归方程、线性相关的显著性检验、非线性回归分析、多元线性回归分析、一般情况下的线性回归分析进行了论述。
结合数据挖掘的特点,给出了采用逐步回归分析法建立锻模设计准则的实例。
就逐步回归分析的软件设计、锻模飞边尺寸设计准则的制定、锻模飞边金属消耗设计准则的制定等问题进行了描述。
最后,得出了利用逐步回归分析软件建立的上述两类准则,并对结果进行了分析,获得了相关结论。
第2章从数理统计数据挖掘,习题2,1在某种产品的表面腐蚀刻线,腐蚀深度与腐蚀时间关,测得试验数据如下,
(1)检验腐蚀深度与腐蚀时间之间线性相关关系是否显著;
如果显著,求关于的线性回归方程。
(2)求当腐蚀时间时腐蚀深度的置信水平为的预测区间。
第2章从数理统计数据挖掘,习题2,2冶金厂生产某种零件,对一批成品的质量与压溃强度进行实际测试,得到数据如下:
第2章从数理统计数据挖掘,
(1)检验压溃强度与质量之间线性相关关系是否显著;
(2)求当质量为时压溃强度的置信水平为的预测区间。
3一册书的成本费与印刷册数有关,统计结果如下:
检验成本费与印刷册数的倒数之间线性相关关系是否显著;
如果显著,求关于的回归方程。
第2章从数理统计数据挖掘,习题2,4对变量与,测得试验数据如下,第2章从数理统计数据挖掘,画出散点图,为了求得变量关于的回归方程,考虑选配下列曲线方程。
(1)
(2)(3)按所得的各个回归方程,分别计算先剩余平方和比较它们的大小,从而选定“最佳”回归曲线方程(最小者为“最佳”),习题2,5某零件上有一段曲线,为了在程序控制机床上加工这一零件,需要求这段曲线的解析表达式,在曲线横坐标处测得纵坐标共11对数据如下:
(1)利用多项式回归分析求这段曲线的纵坐标关于横坐标的回归方程,
(2)设,利用多元线性回归分析求关于,的二元线性回归方程,从而得到这段曲线的回归方程。
第2章从数理统计数据挖掘,习题2,6对变量,与测得试验数据如下:
检验变量与,之间线性相关关系是否显著;
如果显著,求关于,的二元线性回归方程。
第2章从数理统计数据挖掘,习题2,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 数据 挖掘 课件