品味统计的见解.docx
- 文档编号:26849157
- 上传时间:2023-06-23
- 格式:DOCX
- 页数:9
- 大小:23.88KB
品味统计的见解.docx
《品味统计的见解.docx》由会员分享,可在线阅读,更多相关《品味统计的见解.docx(9页珍藏版)》请在冰豆网上搜索。
品味统计的见解
品味统计的见解
*以下资料转载于品味统计的博客(一个介绍boosting方法的网页目前在分类预测方法中,randomforest,boosting,SVM基本上占据了前3强。
而且很多情况下,这3种方法的功效相差无几。
AnintroductiontoBootstrap
统计书籍,作者是Efron和Tibsharina,都是著名的统计学大家,前者是Bootsrap方法的提出者。
可以说Bootstap方法是20世纪后期为数不多的富有统计思想的创新之一,从它的出现开始,就受到了大家的广泛关注,成为了一个研究的热点问题。
当然,这种基于计算密集型的方法也广泛的应用,非常的符合了现在计算机技术的发展对统计的推动。
关于Bootstap的文献可是说是数以万计,而且还在增长。
有关的专著也很多本了。
《Anintroductiontobootstap》是一本入门型的读物,介绍的非常细致,特别注重从实际的例子引出相关的统计思想和方法,读起来非常的舒服。
当然这也和两位作者的统计造诣是分不开的。
这书给人的感觉就是充满了统计思想,而不是满页的数学符号,所以是很适合自学的。
高维数据分析中的稀疏"sparse"问题
近几年,高维数据分析成为统计学范围内的热点话题,几乎所有的大牛统计学家都在研究。
其中,稀疏问题就是其中一类研究方向。
当变量or特征个数远大于样本大小时,通常很多特征都是
噪声而非信号,它们会影响我们的分析结果。
例如,在基因芯片microarray里,基因个数一般有几千
甚至上万个,而观测个体只有几十或者百来个。
从生物上讲,和某个疾病相关的基因也就几十
到几百个左右,剩余的genes都和疾病是无关的。
这就产生一个统计问题,如何在分析中,
能够提取感兴趣的features。
我们一般把它称为特征选择(featureselection)。
稀疏问题
就可以自动的解决特征选择,几乎经典的多元分析的问题都可以推广到高维稀疏情况。
近几年
的研究成果有:
稀疏回归(lasoo,Lars,SCAD,Elasticnet等),稀疏协方差矩阵,稀疏主成分,
稀疏聚类,稀疏相关分析or因子分析。
Stein效应与压缩估计
Stein在1955年指出,在二次损失函数下,多元正态分布的样本均值是均值向量的非容许估计。
也就是说,存在另外一个估计使得其风险比样本均值要小。
这个效应一般就做stein效应。
后来JamesandStein(1961)提出了非常著名的James-Stein估计。
其本质就是把样本均值向原点线性压缩。
现在看来这个估计很简单,但是就是这个估计开创了有偏估计的时代,很大的丰富了经典估计理论。
有偏估计往往可以看作是经验贝叶斯估计,在现代的大规模数据分析中,扮演着至关重要的地位。
模型的不确定性和预测
在一本数据挖掘的书上看到了几句关于modeluncertainty和prediction的相互关系的论断。
感觉很有含义,值得细细品味,其中体现了经典统计方法和现代数据挖掘之间的差异。
Inaworldwheremodeluncertaintyisoftenthelimitingaspectofourinferentialprocedures,thefocusbecamepredictionmorethantestingorestimation.
Goodinferencerequirestrade-offsamongthebiasesandvariancesfromeachlevelofmodelling.
Theadequacyofthemodelcannotbeassumed,sothestandarderrorofaparameterisaboutavaluethatmaynotbemeaningful.
Inthemid-rangeofuncertainty,dealingwithmodeluncertaintycarefullyusuallybecomesthedominantissuewhichcanonlybetestedbypredictivecriteria.
只要是经典的参数方法和现在非参数方法之间的差异,其中包括:
估计,检验vs预测,无偏vs有偏,是否考虑模型的不确定性,维数灾难等。
均值的实际含义?
对于一个随机变量来说,均值是一个很重要的数值特征。
粗略的说,就是来描述一个群体的平均水平。
其严格的数学定义非常的简单,就是一个随机变量关于概率测度的积分。
这样的积分在测度轮或者实分析里是没有什么直观的解释的。
而在概率论里却成为了一个群体的主要指标。
就统计问题而言,总体的均值不可知道,只能用一个有限样本区估计之。
于是就有了样本均值一说。
其定义极其的简单-求所得的样本的算术平均值。
更深刻的是,在强大数律的保证下,样本均值可以a.s.趋近于总体均值。
这种性质又称强相合性。
当然样本均值还具有无偏性等特点。
在现在的统计数据里,最常见得就是样本均值了。
如何:
城镇居民平均收入,一周平均温度,成年男性的平均身高等。
很多人看到这些数据就会把自己的指标和这些均值作比较,然后会说:
我达到了平均水平了。
但是,仔细想想这个均值有什么概率上的意义吗?
事实上,除了一些很特殊的分布外,均值是很难做出直观的解释的。
与均值很接近的一个概念就是中位数,但是现在很少被用于描述成产生活指标。
中位数有很强的统计意义,如果你的指标等于中位数,可以认为你正好处于中游水平。
当然,如果总体的分布是对称的,均值和中位数相同。
如果分布是偏态的,光是看均值肯定是很片面的,还需要其他的指标,如中位数众数等。
俗话说,兼听则明,偏听则暗。
只相信一家之言,其风险就会比较大。
所以,不能只迷恋于一个简单的样本均值。
Lebesgue积分与数钱
《实变函数论》,北大周民强写的。
在绪论里介绍了Rieman积分的局限性,同时也引出了Lebesgue积分。
其中说到Lebesgue给自己的积分和Rieman的区别时,他举了一个例子:
假如你要还钱给人家,要先数一下自己钱包里有多少钱。
一种数法就是,把钱全拿出来,按照面额大小分类,再把各部分总数求和。
这种方法就是Lebesgue积分的思想。
另外一种就是,按照一定次序逐项相加,比如按照取出钱的次序来算总额。
这就是Rieman积分的思想。
通俗的说,Rieman积分从划分定义域出发,而Lebesgue积分则先划分取值空间(值域)。
后者的难点在于在定义一个合理的测度。
闲话"无偏"估计
在统计的教科书上,经常可以看到"无偏"(unbiased)这个词。
例如无偏估计,无偏检验,最小方差无偏估计等等。
而在实际中不同的人会对这个词有着不同的理解。
根据偶的了解,unbiased最早是由R.A.Fisher引入到参数估计理论里,主要用于建立若干评价一个估计量性能好坏的标准(像无偏性,相合性,有效性)。
当然,无偏性只是众多标准里的一种,但是却最被大家所熟知。
我认为最主要的一个原因是其定义简单-期望值等于真实值,数学上好比较好处理-容易推倒数学结论。
另外,可能就是大众心里普遍愿意接受一个没有系统偏差的估计量。
在很多人的眼里,有系统偏差似乎是一个很不好的结果,很不完美,而无偏则刚好相反(貌似天朝人都喜欢完美的说,不知老外如何?
)。
这样的认识事实上有点主观臆断了,不够理性了。
举个简单的例子,真实的参数为0,现在用一个服从伯努利分布的随机变量(以0.5概率等于100,以0.5概率等于-100)去估计.显然着是一个无偏估计,可是其效果就很差了。
所以,千万不能把无偏性神圣化了。
其实,具体的统计问题对应不同的评价标准,然后在此标准下再去寻找优化的解。
例如,在回归分析里,大家发现用LS得到的回归系数的估计虽然是无偏的,但是方差较大,从而导致模型的预测能力较差,所以有人就提出了一些有偏的估计,提高模型的预测能力。
比较有名的方法有:
ridgeestimate,Lasso,SCAD,elasticnet等。
可以看到在现在的统计理论里,有偏越来越受到大家的关注。
关于极大似然法的几点随想
极大似然法(ML)是著名统计学家R.A.Fisher提出的。
定义非常的简单,从数学上来看很像密度函数,最早主要用于点估计理论,特别在大样本理论下具有很好的性质(如Fishe信息量等)。
一直到现在都是参数模型下估计理论的重要组成部分。
Likelihood方法的提出和发展使其成为统计学里和频率派,贝叶斯学派并列的一个学派,且在Fisher时代占据了统计学的主导地位。
其实我们现实生活之中经常也在使用关于极大似然的思想,就是根据表面的一些观察来推断真实的情形。
特别在一些破案的故事中,破案人就要利用观察到的信息来推断最有可能的作案情况。
这里就可以把真实的情况看作是参数,手头的信息看作是观察数据,目的就是推断真实的参数。
当然,有时候还会利用一些所谓的先验信息,例如嫌疑人的前科等,这种情况又可以有Bayes的思想来解释了。
可以看到ML法是很巧妙的,在经典的统计理论中独占鳌头,包括后来Neyman发展的似然比检验理论,真的可以说是家喻户晓。
很多做应用的学者,对ML法的确是爱不释手。
然而,事物总不可能是十全十美,ML法在某些问题上的表现得不尽人意了。
著名统计学家Efron曾经写过一篇文章《MaximumLikelihoodanddecisiontheory》,他指出ML是对summaryofdata比较适合,但是对于parameterestimation就存在一些问题了。
牛人的文章还是值得一读的。
尤其是在当数据的观测个数(n)比较小,模型里的参数个数(p)却比较多,在用经典的ML效果就比较差了(估计的风险,预测的能力等)。
现在科学技术的发展,产生了大量的上述类型的数据,一般就叫高维数据(highdimensioanldata),想在生物医生领域的芯片技术,分子标记技术,生物图像技术都给我们带来了这样的数据。
于是,统计学家就提出了带有惩罚的极大似然方法,发展了很多新的参数估计和变量选择的新方法,成为了研究的热点方向。
最早好像是在90年代初在小波分析中采用了压缩方法(shrinkagemethod),其直观的想法就是"滤波"-把noise过滤掉,把真实的signal保留下来。
现在有一种流行的说法就是featureselection。
估计,检验与预测
在经典的统计框架里,估计理论和假设检验理论是统计推断的两大块内容。
任何统计学的分支,如纵向数据分析,非线性回归,时间序列分析等,都要讨论关于参数的估计和检验问题。
大致上,估计理论得益于Fisher的贡献,而假设检验得益于Neyman&Pearson.大体的框架在二战前后已经建立完毕,后续的工作是将其扩展成各个新的同一级分支,如spatialanalysis。
在严格的数学假设下,如参数,分布,模型等,可以得到一些很漂亮的小样本结果(如t分布),以及很多大样本的结果(相合性,渐近正态性等)。
预测在普通的教科书上似乎很少被提及,当然在回归和时间序列里会讨论。
直观上来讲,还很难与估计&检验相提并论。
不言而喻,预测是很有应用价值,在一定意义上,估计检验判别都可以看作是预测。
然而,就是这么一个领域,现在已成为dataminingandmachinelearning的中心问题。
很多著名的算法都是用来做预测的。
例如,早期的神经网络,投影追踪,现在的支持向量机(SVM),Boosting,randomforest等。
随着近一二十年,学习理论的兴起和发展,在预测方面上体现很强的能力,给统计学家带来了极大的挑战。
伯克利大学著名统计学家Breiman就指出,如果统计学界再不重视预测问题的话,很可能将来统计分析被数据挖掘所代替。
于是,统计学者开始关心预测问题,逐渐形成了一个新名词-statisticallearning。
主要是以斯坦福大学的一批统计学家为代表。
其发展很大的拓宽了统计的研究领域,也增强了统计自身的竞争力。
事实上,二者的侧重点来时有很大的不同。
估计&检验主要探索变量之间的关联,用来分析,解释自然界的各种随机现象。
换句话说,就是要认识一个黑盒子里的本质。
而预测就只关心对未来某个事件的猜测是否精确,用于做各种决策。
它不关心黑盒子里是什么样构造,只关心用已知数据训练的机器(machine)在将来好不好用。
不同的学科对二者有着不同的偏好。
在很多自然科学,如物理,生物,大家更喜欢前者。
在很多工程领域,如信号处理,金融风险,预测占主流地位。
值得一提的是,现在的统计学已经吸收了大量的学习理论的思想方法,很多分支成为现在的研究热点,如高维数据分析,图模型推断,独立成分分析,小波分析等。
随机效应模型是什么?
随机效应模型(randomeffectsmodels)是经典的线性模型的一种推广,就是把原来(固定)的回归系数看作是随机变量,一般都是假设是来自正态分布。
如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixedmodels)。
虽然定义很简单,对线性混合模型的研究与应用也已经比较成熟了,但是如果从不同的侧面来看,可以把很多的统计思想方法综合联系起来。
概括地来说,这个模型是频率派和贝叶斯模型的结合,是经典的参数统计到高维数据分析的先驱,是拟合具有一定相关结构的观测的典型工具。
随机效应最直观的用处就是把固定效应推广到随机效应。
注意,这时随机效应是一个群体概念,代表了一个分布的信息or特征,而对固定效应而言,我们所做的推断仅限于那几个固定的(未知的)参数。
例如,如果要研究一些水稻的品种是否与产量有影响,如果用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。
这里,就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。
同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。
经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinaldata),已经成为很大的一个统计分支。
上述两点基本上属于频率派,分析的工具也很经典,像极大似然估计,似然比检验,大样本的渐近性等。
但是,应该注意到把固定的参数看做是随机变量,可是贝叶斯学派的观念。
当然,mixedmodels不能算是完全的贝叶斯模型,因为贝叶斯学派要把所有的未知的参数都看作是随机的。
所以有人把它看做是半贝叶斯的or经验贝叶斯的。
在这个模型上,我们可以看到两个学派很好的共存与交流,在现代的统计方法里两种学派互相结合的例子也越来越多。
众所周知,随机效应有压缩(shrinkage)的功能,而且可以使模型的自由度(df)变小。
这个简单的结果,对现在的高维数据分析的发展起到了至关重要的作用。
事实上,随机效应模型就是一个带惩罚(penalty)的一个线性模型,有引入正态随机效应就等价于增加的一个二次惩罚。
有趣的是,著名的岭回归(ridgeregression)就是一个二次惩罚,它的提出解决了当设计矩阵不满秩时最小二乘估计(LSE)无法计算以及提高了预测能力。
于是,引入随机效应或者二次惩罚就可以处理当参数个数p大于观测个数n的情形,这是在分析高维数据时必须面对的问题。
当然,二次惩罚还有一个特性,如:
计算简便,能选择相关的predictors,对前面的几个主成分压缩程度较小等。
统计学里的一些优化思想
优化方法是一门很实用的学科,可以渗透到任何一门数量化的学科分支。
在统计学范围里,最早的优化问题出现在19世纪,著名数学家Laplace和Gauss研究了线性拟合中的参数估计问题,得到了著名的最小二乘估计。
以及教科书里成为Gauss-Markov定理:
最小二乘估计是方差最小的线性无偏估计。
Fisher在1922提出了一个参数估计的原则-极大似然估计。
后来陆续证明极大似然估计具有很多优良的性质,如相合性,渐近有效性等。
可以说极大似然估计至今在参数建模框架里占据了主要地位。
前面提到的最小二乘法和极大似然法都是先得到一个解,再去探讨此解的优化性质。
而直接从优化性质出发,寻求理想的解,最早由著名统计学家Neyman&Pearson于1933在研究假设检验问题时引入的。
目的就是要寻求最有效的检验方法。
他们提出现在流行的一个优化框架,在控制第一类错误的条件下,使得检验的功效到达最大。
随后,提出了一系列的概念和定理,建立起现在的假设检验理论。
紧接着,Wald在二战前后建立了更深刻的"统计决策理论",从而把点估计,假设检验,区间估计都理解为优化问题。
此后,优化思想开始在统计里风靡,大量的大样本优化结论出现,数学的味道在统计理论也越来越浓。
谈谈数学,概率与统计
在国内,一般本科的专业里有统计学,有些是设在数学系下面的,属于理学专业;有些是设下经济类里的,属于经济学专业。
两者的也各有自己的侧重点。
另外,概率论与数理统计是一级学科数学下的一个二级学科。
这个分类多少受到了前苏联的影响。
这里就涉及到了数学,概率与统计学之间的关系。
现代的概率论的确是一个数学分支。
然而概率论在很长的一段时间,并没被大家承认是一个数学的分支,其原因就在于没有严格的数学基础。
数学分支都是建立在一些公理基础上的演绎的体系。
而概率论直到1933年才由著名的数学家kolmogorov建立了公理化体系,主要的数学基础是测度论。
从此以后,概率论突飞猛进,包括概率极限理论,随机过程论,随机分析等很多分支,所用到的数学知识也越来越多,像泛函分析,微分几何,微分方程,拓扑学,数论,优化理论等。
而统计学就相对比较特别了,和数学不同的是统计学是一门归纳的学科。
从而,很多人就认为统计学不能列入数学的范围。
但是统计学有很需要数学特别是概率论的知识。
事实上,概率论提供了一个度量不确定性的方法,而统计学利用这个工具从实际数据里提取感兴趣的信息。
很有意思的是,一些著名统计学家,很多都是出身数学的,数学上的造诣都很深的。
例如,早期的Fisher,就很有数学的天赋,他的很多证明是从几何的观点得出的。
而且Fisher还把优化的思想引入到参数估计体系了,提出了一些标准(无偏性,相合性等),接着Neyman-Pearson把优化思想发展到假设检验理论。
优化的思想已经渗透到了统计学的各个分支。
当然Neyman也有极强的数学功底,他曾经研读过Lebesgue关于实变函数的原著(据说是相当的难懂)。
我国的很多概率统计学家也都是数学出身,像许宝騄,陈希孺院士。
陈希孺先生就很谦虚的说过他只是做了一点数理统计里的数学问题。
大家在学习不同的学科也会感受各自不同的特点。
从(确定性)数学分支到概率论,很多人会感到不适应。
因为学概率论除了数学知识,还需要很多概率的思想,脑子里要装有很多概率模型(如摸小球模型,随机徘徊等),很多时候直观的想法比数学推导更有用。
而统计类学科,除了数学,概率知识外,还要有统计的思想,像似然原理,bootstrap等,都是很直观的。
不过不管是数学,概率还是统计,基本概念都是极其重要的,是其他理论的基础。
就像整个微积分的大厦里,极限的概念是最基本最重要,其他像导数,微分,积分等都是建立在极限基础上的。
MSN空间完美搬家到新浪博客!
特别声明:
1:
资料来源于互联网,版权归属原作者
2:
资料内容属于网络意见,与本账号立场无关
3:
如有侵权,请告知,立即删除。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 品味 统计 见解