完整版正态分布的发展及应用毕业设计.docx
- 文档编号:24865956
- 上传时间:2023-06-02
- 格式:DOCX
- 页数:21
- 大小:57.90KB
完整版正态分布的发展及应用毕业设计.docx
《完整版正态分布的发展及应用毕业设计.docx》由会员分享,可在线阅读,更多相关《完整版正态分布的发展及应用毕业设计.docx(21页珍藏版)》请在冰豆网上搜索。
完整版正态分布的发展及应用毕业设计
正态分布的发展及应用
摘要
生活中诸多的经验和理论都表明,我们所处的环境中服从正态分布的事件是极其常见的。
例如:
工程中的加工尺寸,人的身高,降雨量等都可以看做是正态分布。
所以在统计学中对于正态分布的使用越来越广泛。
本文是对正态分布的发展以及应用做一些基本的阐述。
正态分布又名高斯分布,德国数学家高斯对于正态分布的形成与发展有着举足轻重的地位。
正态分布从无到有,最后成为数理统计中非常重要的模型大致可分为三个阶段:
第一个阶段是形成阶段,18世纪30年代数学家狄莫弗在一个赌博问题的概率计算中意外发现了正态曲线,所以人们也把正态分布的起源归于赌博问题,但由于社会及个人的问题,正态曲线在那时并没都得到很大的发展。
第二个阶段是18世纪中叶正态分布的模型建立,在天文学发展的刺激下,数学家拉普拉斯,高斯对于正态分布又有了新的拓展,让人们逐渐认识到了其在天文,误差领域的应用。
第三阶段19世纪中叶在凯特莱,高尔顿的努力下,使正态分布进入到自然和科学领域,从此进入了统计学的大家庭。
最后本文总结了现阶段正态分布的一些最基本最实用的应用。
【关键词】正态分布狄莫弗拉普拉斯高斯凯特莱
DevelopmentandApplicationoftheNormalDistribution
Fengjiexue
(Departmentofmathematicsphysicsandinformation,DonghaiScience&TechnologySchool316004)
Abstract
Manylifeexperiencesandtheoriesthatwenormallydistributedenvironmentinwhichtheeventisextremelycommon.Forexample:
thesizeoftheprojectintheprocess,aperson’sheight,rainfallandsocanbeseenasanormaldistribution.Therefore,thenormaldistributioninstatisticsmorewidelyused.Thisarticleisanormaldevelopmentandapplicationtodosomebasicexposition.
Normaldistribution,alsoknownastheGaussiandistribution,theGermanmathematicianGaussfortheformationanddevelopmentofthenormaldistributionhasapivotalposition.Normaldistributionfromscratch,eventuallybecameaveryimportantmathematicalstatisticsmodelcanbedividedintothreestages:
thefirststageistheformationstage,18inthe1930smathematicianMoivreprobabilitycalculationsinagamblingproblemaccidentallydiscoverednormalcurve,sopeoplehaveattributedtheoriginofthenormaldistributionofgamblingproblems,butbecauseofsocialandpersonalproblems,thenormalcurveatthattimedidnothaveagreatdevelopment.Thesecondstageisthemid-18thcenturythenormaldistributionmodel,thestimulationofthedevelopmentofastronomy,mathematicianLaplace,Gaussiannormaldistributionhasanewdevelopment,sothatpeoplecometorealizethatitsinastronomy,applicationerrorfield.Thethirdstageinthemid-19thcenturyQuetelet,Galton’seffortstomakethenormalintothenaturalandscientificfields,fromenteringthefamilystatistics.Finally,thepapersummarizessomeofthemostbasicandnormalstageofpracticalapplication.【Keywords】NormaldistributionMoivreLaplaceGaussKettle
目录
摘要I
AbstractII
1绪论1
1.1正态分布的定义1
1.2正态分布的曲线1
1.3正态分布与标准正态分布2
2.正态分布的起源3
2.1古典统计时期的概率论3
2.2二项式正态逼近——狄莫弗4
2.3为何当时正态分布未能有大发展4
3.正态分布的重新出发6
3.1天文中的误差6
3.2误差论的形成6
3.2.1拉普拉斯的概率论7
3.2.2高斯分布7
3.3基本误差假设8
4.正态分布的近代统计学之路9
4.1“近代统计学之父”—凯特莱9
4.2凯特莱对正态曲线的拓展10
4.3高尔顿对正态分布的创新10
5.现代统计学中的正态分布12
6.正态分布的应用13
6.1频数分布13
6.2对学生的一些情况进行调查13
6.3医学的正常值范围参考14
6.4正态分布促进统计学的发展14
.结束语15
参考文献16
1绪论
1.1正态分布的定义
若随机变量x服从一个位置参数为,尺度函数为,其概率密度函数为
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作X~N(),读作服从N(),或者X服从正态分布。
1.2正态分布的曲线
正态分布的概率密度函数的曲线像一种大钟,两头低,中间高,左右对称,曲线与横轴间的面积总等于1.。
正态分布有两个参数,,参数服从正态分布的均值,参数是随机变量的方差,所以记作X~N()。
正态分布取当值与越接近时,概率越大;当取值与越远是,概率越小,在取到是达到最大。
正态分布与的关系是,当越小时,整个图形在附近的面积越多;当越大时,整个图形在附近的面积越少。
正态分布的密度函数是对称函数,他的对称轴为,在上去的整个函数的最大值,在正负轴的无穷远处为0,当曲线与横轴不相交,图像形状为中间高两边低,从最高点向两边均匀下降。
在正态分布的面积中,曲线与横轴上的面积表示该区占总数的比例或者是某一事件发生的概率,各个范围均可用正态公式计算。
一些重要的面积比例,横轴与正态曲线之间的面积恒等于1。
正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
[1]
1.3正态分布与标准正态分布
标准正态分布是一般正态分布的特殊情况,既当=0,=1时,正态分布就成标准正态分布,其概率密度函数
正态分布关于竖轴对称,它有正态分布所有的性质,在实际应用中更为简便,广泛。
正态分布与标准正态分布的转化为:
若X~N,则~N(0,1)
2.正态分布的起源
狄莫弗是一位法国–英国数学家。
主要作品有《机遇论》,与伯努力的《推测术》和拉普拉斯的《概率的分析理论》,被认为是概率论史上三部具有里程碑性质的作品,1667年生于法国维,1754年死于英国伦敦。
狄莫弗的父亲是一位医生,他父亲对他的影响很大,后来他进入到一间天主教学习念书。
在求学期间狄莫弗对数学有了极大的兴趣,在《论赌博中的机会》《几何原本》等一些著作的影响下,他开始奋发学习数学知识。
他在19岁那年,他为了保护卡尔文教徒的南特兹赦令不被废除而遭监禁,做了两年牢。
南特法令别摒除后,他为求生计,去了英国伦敦。
在伦敦的学习狄莫弗找到了更多更加优秀的作品,学到了更加丰富的知识,后来通过自己的不断努力他当上了英国皇家学会会员,他的一生有许多的成就其中最重要的就是正态曲线的发现。
[2]
狄莫弗对统计意义主要有:
他用频率估计概率,观察值的算术平均的精度,与观察次数N的平方根成比例,这对当时来说是一个非常大的进步。
还有他的最大贡献当然是以他名字命名的中心极限定理,后来拉普拉斯在他40年自后才才得出了中心极限定理的公式。
后来统计学家发现,许多的统计学中的基础量,在样本无限时,他的分布都与正态分布有契合的地方,这成为数理统计学中大量的基本模型。
一直到今天,这样的模型依然有着很重要的地位,可见狄莫弗所给后人带来了无穷无尽的财富。
2.1古典统计时期的概率论
概率论和统计学是一对兄弟学科,两门学科一同形成完善,共同创新并影响着,你中有我,我中有你。
概率论发源于赌博活动中,概率论的发展推动者统计学的进步,而统计学的进步尤为概率论的世纪应用找到了方向。
我们通常把统计学的形成分成三个时期:
古典统计时期、近代统计时期和现代统计时期。
古典统计时期大约是17世纪中叶到18世纪中叶,这一时期欧洲在各个方面都有着天翻地覆的变化,概率论和古典统计学就是在这特殊的情况下出现的。
我们一般认为概率论的出现源于帕斯卡和费马,两个伟大的数学在特殊时期的发明。
2.2二项式正态逼近——狄莫弗
在任何实验中,当实验次数足够多时,时间出现的频率就接近于事件发生的概率。
当无限次地进行实验室,人们就能准确的计算所有事件的概率。
当时在英国的狄莫弗通过学习对数学有了极大的兴趣,尤其是对概率论的兴趣,他对概率论有着诸多的灵感,他不断的摸索其中的奥秘。
在1711发表了关于概率论研究的论文,在1733年,一个赌博问题刺激着狄莫弗--
A,B在赌场里赌钱,A,B赢概率是p,B赢的概率是q=1-p,赌n次,假如A赢的次数X>np,就A给赌场X-np元,不然B给赌场np-X元。
求赌场能获得理论的期望?
最后求得的结果期望值是
棣莫弗用公式得到了当p=1/2时
这是狄莫弗由赌博问题计算出来的式子,在概率论应用及统计学中有着非常崇高的地位。
从这开始,在拉普拉斯等其他学者的共同发展下,中心极限定理最终形成,称为狄莫弗-拉普拉斯中心极限定理:
[3]
设随机变量X_n服从参数为p的二项分布,则对任意的x,恒有
狄莫弗在二项分布的推算中只看到正态曲线的外貌,他未能真正看到这条曲线的迷人之处,他的研究也到此为止了。
2.3为何当时正态分布未能有大发展
从现代的眼光来看狄莫弗对正态分布的出现有着历史性的作用,他为正态分布的出现埋下了一颗希望的种子,可在当时狄莫弗所做的研究没有引起很多人的的重视,正态分布还处在一个萌芽状态,根本谈不上有什么应用。
我觉得还有以下原因:
首先,在那时人们随意概率论有着偏见,认为概率论的来源是赌博,人们反对将他归入到科学领域,束缚的他的发展,那时的大数法则被推上的很高的位置,人们都无法挑战铁律。
其次,一个理论的发展需要现实的需要,而当时统计学的作用中用于人口的统计,非常有局限性,那时统计学中的二项分布运用的比较多,二正态分布由于不被社会所需要所以他的成长还需要一些过程。
再次,当时除了狄莫弗,当时的数学家对于概率论的研究都不是非常的感兴趣,他所得到帮助非常少。
最后是历史原因,在书写概率论的发展史中狄莫弗二项式正态逼近被遗漏了,他对概率论所做的贡献在很长一段时间内被遗忘了,知道拉普拉斯和高斯等人的出现,对正态曲线有进一步的发展,人们才认识到狄莫弗的贡献。
3.正态分布的重新出发
人们对事物的检测,无可避免或多或少总会出现一些误差,不管是检测哪方面的,人们很早就知道了这一点,不过对检测结果的不确定性,人们总是不清楚,看法始终不能一致。
到了18世纪,数学有了一个变化,人们研究数学是为了解决生活中的问题。
人们对概率论有了新的认识,概率论在日常生活中的应用也越来越多了,推动了误差问题的前进。
天文学的迅速发展,许多天文学家在研究天文问题时都涉及到天文数据的测量计算,这些为正态分布的发展提供了温床。
3.1天文中的误差
天文学从古代至18世纪一直是应用数学中最发达的领域,观测和数学天文学,给出了建模及数据拟合的最初例子。
正态分布的新生则是其中非常经典的例子。
人们对天文问题的研究促使天文学家非常关心在数值分析是算术平均是否合理,并开始从误差的角度来进行分析。
测量误差,一个无法避免的问题,在天文的一些数据测量中,不同的测量机构,不同测量机器,不同的测量人员等等都难免会有差异,所以测量结果页肯定会有差异,当去平均时可是受到的干扰最小,结果更接近真实值,测量值有误差,但基本都在真实值附近。
[4]
在进行对天体观测数据的计算过程中发现了许多正态分布的特征,认为在观测中引起的误差与在计算中引起的误差是不一样的,小的观测值变化同意可以是距离值有很大的变化。
伟大的天文学家伽利略是第一个在作品中提出观测误差这个概念的,由于那时的概率论的知识有限,没能很好的解决这个问题。
后来辛普森对误差问题的研究也并没有取得很多的进展。
3.2误差论的形成
卡尔·弗里德里希·高斯,德国著名数学家、物理学家、天文学家、大地测量学家,与牛顿、阿基米德被称为为历史上最伟大三个数学家,是近代数学奠基者之一。
在他18岁的发现了质数分布定理和最小二乘法。
通过对足够多的测量数据的处理后,可以得到一个新的、概率性质的测量结果。
在这些基础之上,高斯随后专注于曲面与曲线的计算,并成功得到高斯钟形曲线,正态误差理论正式被提出,在70年后狄莫弗推导出来的式子进入了概率的家庭中。
这一函数被命名为标准正态分布,在概率计算中被大量使用。
3.2.1拉普拉斯的概率论
拉普拉斯(1749-1827)是法国、数学家、分析学家、概率论学家和物理学家,法国科学院院士。
1749年生于法国,1816年被选为法兰西学院院士,1817年任该院院长。
他是天体力学的主要创作人,天体演化学的创立者之一,在概率论的发展史中,拉普拉斯是古典概率论的第一人,所以说在数学界他是当时的先锋人。
在他1812年发表了代表作《概率分析理论》,在书中总结了当时整个概率论的研究,介绍了概率论在当时的应用。
书中包含了他毕生对概率论的研究成果,他用数学中的各种工具来对概率论进行分析,对概率论的发展有着举足轻重的作用。
他非常喜欢用归纳和类比的研究方法,是一位分析学大师。
在概率论史上,拉普拉斯被认为是古典概率论的集大成者,他运用许多的分析方法,把概率论的基本理论统统做了系统性整理,把概率论变成了一门系统的学科,为概率论的发展做出了伟大的贡献。
他继承17世纪伯努利对概率论的成果,把概率论应用到当天文地理、人口统计、赌博输赢、人寿保险、法庭判决等各个领域中去。
[5]
3.2.2高斯分布
在数学界我们把高斯称为“数学王子",高斯一生的研究涉及到很多的领域甚至他开创了许多新的领域。
在他的观念中,他宁愿少的发表文章,他要让他所发表的东西是非常完整的。
高斯受拉普拉斯的影响非常深,他的概率论研究资料并没有出版成册,而是在他大量的论文中。
我们都知道高斯的一生很长一部分他的职务是任格丁根天文台台长,所有对天文学的研究从未间断,前面提到了天文学的误差论,高斯对此很感兴趣做了大量的研究,
1809年,高斯发表了数学和天体力学专著《绕日天体运动的理论》其中涉及的误差分布的问题,他推导出来了正态分布的表达式
测量的误差是有许多原因形成的,但每个原因的影响都不是十分巨大,按照中心极限定理,他的分布近似于正态是无法阻挡。
拉普拉斯没有把这个成果用到误差分布上,而高斯做到了,高斯创造性把正态分布和中心极限定理联系在了一起,演化出了新的中心极限定理,其中就包含正态分布。
紧接着高斯提出了--元误差学说,既误差并不是仅由一种原因形成的,而是由许许多多的元误差组成最后产生的误差。
这理论对于给正态误差论一个非常合理、非常令人相信的解释有巨大的意义。
因为,高斯从算术平均的优良性出发的,推导出误差肯定服从正态分布;反之,又由误差服从正态分布得出算术平均和最小二乘估计的优良性。
[6]
1809年,高斯发表了误差正态分布完整理论系统,后来他又发表了最小二乘法,中心极限定理的公式及其理论,在整个概率论的发展有着举足轻重的作用,由于这个原因,正态分布又称高斯分布,可见数学家高斯对整个数学界的地位,在高斯的所有成就中,正态分布岁整个社会影响最大,这也体现了正态分布在概率论中的无法撼动的地位。
3.3基本误差假设
高斯推演出了正态概率密度函数,他的目的就是能让算术平均值能够作为真值的自然估计。
1810年,拉普拉斯在他日常对统计数值的计算分析时,得到了一样的密度函数,这是对高斯函数的一次证明。
当然新的理论还需要更多的被证明,而一些经验性的得出误差分布符合正态分布在数学上显然是站不住脚的。
贝塞尔在1838年非常完整的提出来了基本误差的一般性假设,中心极限定理有了另一只新的证明方式。
他的这么做的原因就是我们虽检测到的误差出现的原因。
原因有:
整体的误差是由一些相互独立的相同量阶他们的联合形成的
,如果用算术平均假设和最小二乘法计算这个概率结果是一样的。
[7]贝塞尔提出的基本误差假设是关于有限矩的对称分布的随机变量,由此得出的有限矩的对称分布的和的分布的渐近展开。
同时他认为,只要基本误差互相独立的,所有的基本误差的方差对误差和的方差有着支配作用,那么此时我们就认为正态分布就是实际误差的分布,误差非常小可以忽略不计。
[8]
误差论的形成发展在当时并没有得到重视,对统计学的发展也没用体现出应有的作用,高斯的误差理论也一直没有应用到其他的方向,由于他产生于天文也一直用于天文,初具雏形的正态分布也始终没有在统计学中没有得到承认。
其原因就是在那时误差论和统计学就是两个完全没有关系的领域,误差论主要是对观测数据的分析计算,所用的知识都是高等数学方面的;而统计学只是对所得到的数据进行统计。
4.正态分布的近代统计学之路
近代统计学,是指18世纪中末叶至19世纪中末叶中统计学,是古典统计学到现代统计学的过中间过程。
在古典统计时期的概率论发展史非常孤单的,与统计学的交流也非常少,概率论与统计学的水乳交融没有真正的实现。
到了近代统计时代,拉普拉斯带带来了许多新鲜的事物。
拉普拉斯首次提出了概率的古典定义,他把一些概率论的理论做为基本理论,在此对中心极限定理进行证明,进一步完备了观测误差理论(其中含有最小二乘法)。
首次把概率论的应该扩张到社会生活方面,最典型的例子就是概率论在人口统计上的应用,拉普拉斯所做的贡献是他在继承前人理论知识的基础上又进行了一次伟大的创新。
[9]
在19世纪50念叨,人口统计空前发展出现了许多与人口统计相关的研究,如人的保险,医疗等,在经济上统计学也被用于农业,工业的分析。
统计学进一步得到了发展,在这个时期凯特莱出现了,他对统计学的推动可谓是巨大的。
4.1“近代统计学之父”—凯特莱
比利时人口学家、数学家、天文学家,人口统计家。
他用大量的概率论中的原理用于对自然和社会现象的测量,然后统计大量数据,总是表现出统计的大数定律,这些数据所反映出来的一些规律可以提现一些事物的变化,甚至能预测未来事件发生的可能性。
在他的理论中,人的出生、成长和死亡是有一定规律可循的,就是揭示这些规律。
他觉得人口动波动的原因有自然的原因以及扰乱的原因。
自然原因可以从性别、年龄、季节等方面进行分析,扰乱原因可以从从社会、经济、政治与道德背景进行分析。
在此分析的结果上,他又以恒常原因、可变原因和偶然原因对人口统计进行分析。
由此提出了“平均人”学的说法,他认为在社会上的人概况起来都有一个平均值,每个人都按照平均值上下波动。
这个平均人在现实中是非常典型的例子。
根据这个典型的例子,我们能看到地球上人口状态的共同形式,一所有社会所特有的形象都在这种平均人中巧妙地、曲折地反映出来。
凯特莱根据人口统计资料研究了婴儿性别比、妇女生育率、分年龄死亡率等等。
由于他首创地在人口统计中使用到了概率论的知识,用数学知识理论研究人口问题,使得人口调查和人口统计有了新的发展。
西方统计学界根据他在建立数理统计学方面所做的贡献,称他为“近代统计学之父”,他对正态分布的见解非常的独特。
[10]
4.2凯特莱对正态曲线的拓展
18世纪的统计数据分析问题主要是二项分布,狄莫弗引入的正态分布并没有别当时所注意;到了19世纪初,由于拉普拉斯的中心极限定理,高斯的正态误差理论,正态分布逐步有了它发回的机会,但是真正把正态分布拓展出去的是凯特莱,他把正态分布应用到天文,地理,物理,数学,生物,社会等各个领域,凯特莱把正态曲线推广到误差理论应用到新的领域和他所提出的“平均人”的概念中。
1826年,凯特莱成为比利时国家统计局的地区通信员,他的工作大多与统计相关。
他的做法是通过某一个地区的人口调查分析来对全国人口进行估计。
这遭到了一些社会学家的反对,他们认为影响人口的因数非常多,如环境的好坏,文化程度,工作,饮食等等,在这些因数影响下的数据进行分析非常的不合理,得到的结果也不准确,凯特莱用了一个大胆的方法,在一批数据中,用这些数据是否服从正态分布作为这些数据是否是同一性质的标准,最后他通过实验验证了这样方法。
[11]后来,他把这一方法进行延生,引入了正态曲线,把正态分布从观测误。
差推广到各种来源的数据,为在社会科学与人文学中使用统计方法迈出了决定性的一步。
1835年,凯特莱首次提出来“平均人"的概念,他把误差法则、正态分布的理论引入到人事研究中去。
凯特莱通过他的努力使统计学得到各个领域的关注,使理论的完善和新理论的诞生有着不可磨灭的作用。
4.3高尔顿对正态分布的创新
高尔顿本来是学医的,后来进入了剑桥大学学习,接触到了统计学方面的知识,他的家庭可以说是书香门第,父亲也是研究统计学方面的,祖父、叔祖父都是英国皇家学会会员,可能是从小受到家庭的影响,他对学术研究有着非常浓厚的兴趣。
他是凯特莱的接班人,受凯特莱影响非常大,在凯特莱之后他致力于研究正态分布。
高尔顿相信正态分布适用于自然,社会中的所有问题,在所有问题中,它都有它的适用性。
他创造性地在生物学角度方面用到了正态分布,他发现两代人遗传方面符合正态曲线,总朝着一平均数发展。
高尔顿原来是学医的,所以他从生物学的角度来分析正态分布,他在亲子两代的身高问题的研究中发现,亲子两代的身高服从正态分布,对此它产生了两点思考:
l、在中心极限定理中,正态分布的形成有许许多多的原因,而整个曲线的形成是有这些原因共同结果而成,这样的话遗传问题如何解释?
2、我们都知道身高是遗传的,一般来说会把优势遗传,由此形成的结果是两级分化严重,但是第二代,通过数据的分析还是与正态分布想符合,这有如何解释?
[12]
高尔顿做了一个名为“正态漏斗”的实验,他得到的结果是虽然遗传是一个大的因数,可以认为这个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整版 正态分布 发展 应用 毕业设计