书签分享收藏举报版权申诉 / 11

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 简历 > 统计学0.docx

统计学0.docx

文档编号：8071347
上传时间：2023-01-28
格式：DOCX
页数：11
大小：98.55KB

统计学0.docx

《统计学0.docx》由会员分享，可在线阅读，更多相关《统计学0.docx（11页珍藏版）》请在冰豆网上搜索。

统计学0.docx

统计学0

大数据时代最炙手可热的学问

1、基尼系数是衡量收入不均的标准经济学工具，我在之后的内容中将对其做出解释，但是现在我要说的最重要的事情是，基尼系数实质上与传球效绩指数没有多大区别，都是将一系列复杂数据浓缩成一个单一数字的便捷工具。

正因如此，基尼系数也拥有描述统计学的大多数优势，如果你想比较两个国家或某个国家不同时期的收入分配情况，该系数就为你提供了一个简单易行的方式。

基尼系数是衡量收入不均的标准经济学工具，我在之后的内容中将对其做出解释，但是现在我要说的最重要的事情是，基尼系数实质上与传球效绩指数没有多大区别，都是将一系列复杂数据浓缩成一个单一数字的便捷工具。

正因如此，基尼系数也拥有描述统计学的大多数优势，如果你想比较两个国家或某个国家不同时期的收入分配情况，该系数就为你提供了一个简单易行的方式。

20世纪初意大利经济学家基尼，根据洛伦茨曲线找出了判断分配平等程度的指标（如右图），设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A，实际收入分配曲线右下方的面积为B。

并以A除以A+B的商表示不平等程度。

这个数值被称为基尼系数或称洛伦茨系数。

如果A为零，基尼系数为零，表示收入分配完全平等；如果B为零则系数为1，收入分配绝对不平等。

该系数可在零和1之间取任何值。

收入分配越是趋向平等，洛伦茨曲线的弧度越小，基尼系数也越小，反之，收入分配越是趋向不平等，洛伦茨曲线的弧度越大，那么基尼系数也越大。

如果个人所得税能使收入均等化，那么，基尼系数即会变小。

联合国有关组织规定：

若低于0.2表示收入绝对平均；0.2-0.3表示比较平均；0.3-0.4表示相对合理；0.4-0.5表示收入差距较大；0.6以上表示收入差距悬殊。

基尼系数是一个用来描述收入整体差距程度的重要指标。

国际上通常认为,当它处于0.3-0.4时表示收入分配比较合理,0.4-0.5表示收入差距过大,超过0.5则意味着出现两极分化。

从现实来看,世界各国对基尼系数的运用并不完全一致。

很多国家都是把它与其他因素结合起来,综合判断收入差距。

在不少国家,基尼系数都有不同的标准和界线。

总的来说,基尼系数只可参考,不能绝对化。

2、学习统计学的意义是什么？

统计学能够帮助我们处理数据，而数据只不过是包裹着华丽外衣的信息。

在很多时候、很多事情上，数据不仅琐碎而且并非那么重要，比如比赛数据统计；但有的时候数据却能为你打开一扇洞察人类存在本质的窗户，比如基尼系数。

3、描述性数据

（GPA），通俗点儿说就是学生在校的平均成绩。

如果一门课的成绩为A，那么就可以获得4点，B是3点，C是2点，以此类推。

，GPA就是评价他们学术潜力的一个方便快捷的指标。

一个GPA为3.7的学生显然要比另一个GPA只有2.5的学生的实力强，这就使得GPA成为一个受人欢迎的描述性数据，不仅计算容易、理解容易，而且对不同学生进行比较也很容易。

但这一衡量指标并不完美。

GPA没有反映不同学生所选课程的难易程度，假设一个GPA为3.4的学生选的都是相对没有挑战性的课，而另一名GPA只有2.9的学生的课程表里尽是微积分、物理这类难学的课，我们能一口判定孰优孰劣吗？

，对于描述统计学的过分依赖会带来误导性的结论或导致不良行为。

上一句话我原先用的短语是“过分简化的描述统计学”，可后来我把“过分简化”给删掉了，因为这个形容词是多余的，描述统计学存在的意义就是简化，因此不可避免地会丢失一些内容和细节，任何一个数字工作者对此都要心知肚明。

4、概率与风险

从长远看，赌场总是能够挣到钱，而且无一例外。

这并不是说赌场每时每刻都在赚钱，每当赌场里的钟声和口哨声响起时，就代表某位幸运的赌客刚刚赢走了几千美元。

整个博彩事业是建立在机遇游戏之上的，也就是说任何一次骰子的投掷和扑克牌的翻牌都是不确定的。

但与此同时，相关事件的潜在概率又是已知的，比如“黑杰克”抽中21点或“轮盘赌”转到红色的概率是固定的。

当这些游戏的概率对赌场有利时（赌场当然不会亏钱），不管场内的钟声和口哨声有多热闹，或者赌客手里的赌注积累得有多大，赌场永远都是最终的赢家。

许多公司会对某些最不愿意遇到的风险进行概率评估，公司的管理层都知道想要完全避免这些风险是不可能的，就像赌场没法保证赌客们每一手牌都会输一样。

但是，任何一家面对不确定因素的公司都可以通过商业流程的设计来管理这些风险，将从环境灾难到不合格产品等一系列不利因素的出现概率降至可接受的范围内。

华尔街各大公司经常会对它们的投资组合进行风险评估，充分考虑不同情景的出现概率以设计出合理的应对方案。

2008年金融危机爆发的部分原因，就是一系列之前被认为是极不可能发生的市场事件都成为现实，就好像赌场里的每一位赌客在某一晚同时抽中大奖一样。

我会在之后的章节里向大家解释，其实华尔街的投资模型都存在缺陷，这些公司用来评估风险的数据也过于局限，但此时此刻，我想说的是，任何一个风险评估模型都必须以概率作为基础。

面对难以接受的风险，如果个人和企业无法规避，就会通过其他方式寻求保护。

保险业应运而生，通过收取保费，保险公司为其客户在遭遇如车祸、火灾等不良事件后提供保护。

保险公司并不是通过消除这些不良事件来挣钱，因为车祸和火灾每天都会发生，甚至汽车有可能会一下子撞进房子里引起火灾。

保险公司收取高额的保费，用于支付车祸、火灾等意料之中的风险的赔偿金，然后往往还会有大量盈余。

（保险公司还可以通过宣传安全驾驶、在游泳池周围装设围栏、为每个卧室安装烟雾探测器等方式来减少预期的损失赔偿。

）

概率在有些情况下甚至可以被用来判断考试作弊。

一家由美国学术能力评估考试（SAT）的一位开发者创办的考试安全公司，专注于提供“数据取证”服务，为客户寻找考试作弊的蛛丝马迹。

举个例子，在学校或考点进行的考试，多名考生以同样的答案答错同一道题的情况是极少见的，通常发生的概率只有不到百万分之一，如果有类似的情况出现，该公司就会予以标记。

其数学逻辑源自一个事实，即当大部分考生对某道题都给出了正确答案时，我们并不会感到大惊小怪，因为这是他们应该做的事情。

这些考生有作弊的可能，但他们凭一己之力做对题的可能性更大。

但是当这一群考生答错题的时候，他们的错误答案不应该是完全一样的，如果错误答案完全一样，那么他们就有可能是相互抄袭（或者通过短信息分享答案）。

此外，还有几种情况会引起该公司的注意，比如在一场考试中，考生在难题上的正确率大大高于容易的题（这意味着他们有可能提前就知道答案）；又或者在一场考试中，收上来的答题卡上“错改对”的涂改痕迹要明显多于“对改错”（这意味着有可能是老师或监考人员在考试结束后对答题卡动了手脚）。

当然，你也不难看出概率也有其局限性。

一大群考生在某道题上出现相同的错误答案的情况完全有可能是巧合，事实上，如果参与评估的学校越多，我们就越有可能认为这类情况实属巧合。

并不是说我们一旦在统计时发现异常情况，就马上认定考试存在作弊现象。

来自亚特兰大的德尔玛·金尼在2008年中了价值100万美元的彩票，谁知到了2011年又中了价值100万美元的彩票。

这种同一个人连续两次中大奖的概率只有25万亿分之一，可我们不能仅凭概率几乎为零就以诈骗罪将金尼先生关进大牢（但我们或许可以调查一下，他是否有亲戚在彩票公司工作）。

概率就像是武器库里的一件武器，需要使用者有较强的判断力。

5、吸烟会诱发癌症吗？

虽然现在我们已经有了答案，但得出这个答案的过程却要比大多数人想象中的复杂许多。

如果要求证一个科学假设，科学方法要求我们必须进行控制实验，也就是要有一个对照组，除了要求证的变量以外（如吸烟），实验组和对照组之间不能有任何不同。

如果我们在这两组的观察结果中发现了明显的不同（如肺癌），那么我们就能完全推断这个变量是引起不同结果的原因。

但是，我们不能以人为实验对象。

如果我们的假设是吸烟能诱发癌症，那么就不能随便指定两组大学毕业生，将其分为吸烟组和不吸烟组，然后在年后的同学聚会上打听谁得了癌症—这是不道德的。

（如果我们的假设是某种新研制的药品或疗法或许能够改善人类健康，那么我们可以在人身上进行控制实验。

我们不能在明知可能会带来不良后果的前提下以人为实验对象。

现在你或许会说，我们完全没有必要在一开始的时候就进行这项可能会违背伦理的实验。

想观察吸烟所带来的影响？

很简单，跳过这套令人头晕目眩的方法论，直接前往那群毕业生的20周年毕业聚会，去看看参加聚会的人数有多少就可以了。

不行。

吸烟者和不吸烟者除了吸烟与否方面的不同，在生活的很多习惯方面都会有差异。

比如，吸烟的人经常会有更多的嗜好，如酗酒和暴饮暴食，后两者也会给健康造成损害。

就算在20周年聚会上那些吸烟者的健康状况尤其糟糕，我们也不能说这些都是吸烟造成的，也有可能是他们的其他坏习惯带来的。

而且在数据的采集上我们也会遇到麻烦，要知道数据是我们作分析的依据，但那些吸烟的校友如果患上了严重的癌症，极有可能会缺席20周年聚会（已经离世的吸烟者就更不可能在聚会上露面了）。

因此，由于那些健康状况良好的校友是最有可能出现在聚会上的，任何基于出席者健康状况的分析和推断（吸烟或其他变量）都会是有缺陷的，而且距离毕业的时间越长，比如40年或50年，这种缺陷就越严重

普林斯顿大学经济学家阿兰克鲁格的观点：

：

恐怖分子的行为一般都带有政治目的，所以只有受过高等教育和家境殷实的人才有最大的动力去改变社会，这些人尤其忍受不了某些政府部门对自由的压制，从而走上恐怖主义。

在其他因素相同的前提下，恐怖主义活动频繁出现的国家往往是那些实行高压政策的国家。

具有统计学意义的”发现，也就是说，通过分析发现某两个变量之间的联系并不只是单纯的巧合。

这暴露了回归分析的一个局限所在：

我们可以通过统计分析来确定两个变量之间的强烈联系，但却无法解释为什么存在着这样的联系，在某些情况下，我们也无法确定这种联系是否为因果关系，也就是说，不知道其中一个变量的变化是否真的能引起另一个变量的变化。

、

6、学习统计学的意义：

统计学能帮助我们处理数据，而数据只不过是包裹着华丽外衣的信息。

在很多时候，很多事情上，数据不仅琐碎而且并非那么重要，比如比赛数据统计；但有的时候数据却能为你打开一扇洞察人类存在本质的窗户，比如基尼系数。

通过学习知识来认清我们的生活。

总结大量的数据。

做出正确的决定。

回答重要的社会问题。

认识并运用那些能够改善我们日常做法的模型，卖更多的尿片、抓更多的罪犯……识别作弊者，让作恶者受到法律的审判。

评价政策、项目、药品、医疗程序和其他创新的有效性。

揪出那些运用相同的统计学手段干坏事的败类。

7、抽样数据

各电视台收视率与大学生毕业就业率

统计学的一个核心功能：

使用已知世界的数据来对未知世界进行推断（统计推断与假设检验）

为什么要进行抽样？

8、统计数字背后的谎言与真相

即使是在最理想的情况下，统计分析也很少告诉我们“真相”。

我们通常所能做的，只是用并不完美的数据来就事论事、

描述性统计————集中趋势的度量指标

1、第一个指标选取：

平均数

第二个指标选取：

中位数

第三个指标的选取：

分位数

第四个指标的选取：

标准差

第五个指标的选取：

百分数差

确定集中趋势指标的意义

2、这些描述性数据为我们提供了一个针对某一现象的可操作、有意义的概括，这也是本章所要讲的。

但坏消息是，任何一种简化都会面临被滥用的危险。

描述性数据就像是在线交友网站上的档案：

虽然每一条都是准确的，但同时也相当具有误导性。

3、标准差也是一个能够帮助我们在一大堆杂乱无章的数字中发现真理的统计数值，我们用它来衡量数据相对于平均值的分散程度。

根据标准差，我们可以知道所观察数值的分散情况。

4、中国的经济健康状况怎么样？

第一个问题的一个合理的答案（没有“正确”的答案存在）：

人均收入=总收入/总人口数，计算方法在技术上是正确的，但没有考虑通货膨胀，也没有考虑普通百姓的收入，而不是泛泛的人均收入，因为收入排行榜顶端的1%人的收入爆炸性增长能够显著拉动人均收入水平的整体提升。

那么选什么指标好呢？

5、如果你利用晚自习时间正偷偷在许会博老师办公室电脑上看火影忍者，许老师电话打进来让你帮忙统计你们俩个班的学习情况，你该怎么统计呢？

第一个指标选取：

平均数

估计中间位置，即统计学专业术语“集中趋势”，最基本的估量方法就是“平均数”，也称为均值。

特点：

一组数据的均衡点所在；易受极端值的影响

有简单平均数和加权平均数之分

根据总体数据计算的，称为平均数，记为；根据样本数据计算的，称为样本平均数，记为x

简单平均数

加权平均数

第二个指标选取：

中位数

但平均数容易受到“异常值”干扰而失真。

因此我选择“中位数”：

排序后处于中间位置上的值。

将数据从中间分成两部分。

如果没有特别离谱的“异常值”，中位数和平均数不会有太大差异。

特点：

不受极端值的影响，解决异常值带来的麻烦

第三个指标的选取：

分位数

中位数的亲戚们：

四分位数、十分位数、百分位数

四分位数：

将数据分为四部分，第一四分位数由处于底部的25%数据构成；以此类推。

例：

第一百分位数表示什么？

第九十九百分位数表示什么？

他们比成绩（绝对分数）本身更有意义

第四个指标的选取：

标准差

我怀孕时期彩超检查胎儿头部左侧液宽7单位，而正常胎儿液宽的平均值为1.5单位，那么孩子出生后是否是脑积水宝宝？

一航班载有250人普通乘客，一航班载有250人马拉松运动员，体重的分散程度是什么样呢？

标准差：

衡量数据相对于平均值的分散程度

经验法则

经验法则表明：

当一组数据对称分布时

约有68%的数据在平均数加减1个标准差的范围之内

约有95%的数据在平均数加减2个标准差的范围之内

约有99%的数据在平均数加减3个标准差的范围之内

第五个指标的选取：

百分数差

公式：

（新数据-原数据）/原数据

美国某州个人所得税税率由3%上调到5%。

促成改革的民主党指出：

税率上升了两个百分点；共和党指出：

税率上升了67%。

体现了百分数差与百分率的不同。

确定集中趋势指标的意义

将一系列复杂的信息浓缩成一个数字，这是所有指数的优点。

概率学的统计应用中常见的问题

1、数量分析方法中常犯的基本错误：

1.“精确”与“准确”的混淆

2.基础概率的估算方式是错误的

3.对小概率事件的忽视

想当然的认为某事件之间不存在联系

想当然的认为某事件之间存在联系

回归平均数

2、概率是研究不确定事件和结果的学问。

概率不会告诉我们将会发生什么，但能够告诉我们很有可能发生什么，不太可能发生什么。

（9.11事件对美国人的影响）

概率乘法法则和加法法则

3、啤酒盲品的广告：

，取其中任意两种品牌的啤酒进行盲品测试，猜对品牌的概率基本上和扔硬币差不多。

大体来看，有1/2的人会选择施利茨，剩下1/2的人会选择“挑战”品牌的啤酒，单看这样的结果可能无法构成一个有说服力的广告营销（我们总不能说“既然口感都差不多，就选择施利茨吧”）。

而且，施利茨啤酒公司绝对不会拿自己的忠实用户做试验，因为差不多有1/2的用户会“不小心”挑选其他品牌的啤酒。

如果一群原本忠实于某品牌啤酒的消费者在盲品时竟然觉得竞争对手的啤酒好喝，这个品牌该有多悲哀啊，所以，施利茨就让这样的事情发生在其他品牌身上。

施利茨的高明之处在于，只邀请那些声称自己偏爱另外一个品牌啤酒的消费者参加测试。

如果盲品的结果果真如抛硬币一样，那么就会有1/2的百威、米勒或米切罗啤酒的爱好者最终选择施利茨。

这下施利茨扬眉吐气了，因为有1/2的百威啤酒爱好者更喜欢喝施利茨！

更妙的是，这一切都在橄榄球联盟决赛的中场进行直播，而且由一位身穿裁判服的橄榄球前裁判执法整个盲品过程。

毕竟是电视直播，就算施利茨已经私底下进行了大量试验，并证明了有1/2的米切罗啤酒爱好者会选择施利茨啤酒，又有谁能够保证在最终直播的时候不出岔子？

万一“超级碗”直播时选取的100名米切罗爱好者的味觉特别灵敏呢？

虽然盲品测试在概率上等同于抛硬币，但万一就是有绝大部分人恰巧选择了米切罗呢？

如果我们让100个人排成一队，逐个抛硬币，出现85或90个硬币反面向上的可能性也是完全存在的。

对于施利茨公司来说，在直播时碰上这样的情况将会对它们的品牌造成毁灭性的打击（更不必说用于购买广告时段的那170万美元了）。

统计学的威力在这种时刻就体现出来了。

如果这个世界上存在一个统计学领域的“超级英雄”，那么这时的画面就会是这个英雄俯身飞入施利茨公司总部，并向在场的高层揭开被统计学家称为二项分布（又名伯努利试验）的奥秘。

二项分布的主要特点有，试验次数是固定的（例如100位啤酒盲品者），每一次试验都有两个可能的结果（施利茨或米切罗），而且每一次“成功”的概率都是相等的（假设选择任意一个品牌啤酒的概率为50%，如果选择施利茨的概率高就表示试验“成功”）。

我们同时还假定所有的试验都是各自独立的，即一位盲品者的决定不会影响其他人的选择。

有了这些信息，这位统计学的“超级英雄”就能计算出所有可能出现的不同结果的概率，重要的是，重复这些基本运算，能够让我们知道某个结果范围内的累积概率，让我们假设，要让施利茨公司满意，100位盲品者中至少要有40位选择施利茨啤酒。

这是一个非常可观的数字，因为所有参加盲品直播的人都曾信誓旦旦地声明自己是米切罗的忠实用户。

而要达到这样的效果，其实一点儿都不难。

如果盲品会果真如抛硬币一样，那么运用概率学的基本知识，就能得出至少有40人选择施利茨的概率为98%，至少有45人选择施利茨的概率为86%。

从理论上来看，这场电视营销活动其实并没有很大的风险。

那么，现实中的结果又如何呢？

在1981年“超级碗”中场休息的现场，正好有50%的米切罗啤酒的消费者在盲品测试中选择施利茨，不多不少，正好1/2。

从这个例子中，我们可以得到两个重要的启示：

第一，概率是一个非常强大的统计学工具；第二，20世纪80年代的许多畅销品牌的啤酒确实在口感上没有什么区别。

本章将主要就第一个启示展开叙述。

4、在“9·11”恐怖袭击事件发生之后由于害怕坐飞机而死于非命。

我们永远都不知道遭受恐怖袭击的真正风险到底有多大，但我们知道开车确实是一件危险的事。

在“9·11”恐怖袭击事件发生之后，越来越多的美国人选择自驾出行，而不选择乘坐飞机。

5、期望值

是基础概率的升级版，某个事件及时所有不同结果的和，其中每一个结果都是由各自的概率和收益相乘而来。

通过比较成本投入和期望收益，你就能知道做这件事是不是“值得”

6、大数定律

随着实验次数的增多，结果的平均值会越来越接近期望值。

为什么赌场从长期看总是盈利的？

99元的U盘用不用买延保？

（1）商场买是一个以赢利为目的的商家，因此追求利润最大化是它不变的追求；

（2）销售助理正在竭尽所能地劝你购买保修延长服务；（3）从前两点能够推测出，购买保修延长服务的代价要高于商家为你修理或更换打印机的预期成本，如果不是这样，那么商家就不可能会如此卖力地推销了；（4）就算价值99美元的打印机坏了，你需要自掏腰包来修理或换一台新机器，也不会给你的生活造成太大的困扰。

一般来说，你为延长保修服务所支付的金额要高于打印机的修理费。

你应该时刻谨记为那些你无法轻松承受的意外上保险，而其他情况就不要浪费钱了，这是个人理财的核心原则之一。

7、假如你的一个朋友建议你向一家研究中心投资100万人民币用于研发男性防脱发产品，其中研发团队研制成功的概率只有30%，如果最终研制失败，你将收回25万人民币。

但即使是最终产品研制成功了，国家药监局认为该产品对人体安全并批准进入市场的概率也只有60%。

批准进入市场后还会有10%的可能性出现一个强劲的竞争对手带着更好的产品打败了我们。

当然，反过来，如果一切都非常顺利，你将获得2500万人民币的投资回报，把自己假定为一名基层公务员，你动心了吗？

（从期望值和大数定律的角度分析）

如此看来，这项投资的预期回报是非常诱人的，高达422.5万美元。

但我还是不建议你用辛辛苦苦积攒的、准备将来给孩子读大学的钱来进行投资。

观察决策树形图，你会发现预期回报大大高于一开始的投资额，但不要忘记，最有可能发生的结果是研发失败，以致治疗男性脱发的产品最终没有面世，而你只能拿回剩下的25万美元。

至于你对这项投资的胃口到底有多大，就要取决于你的风险倾向了。

对此，大数定律给出的建议是，对于一家投资公司或像巴菲特这样富可敌国的个人投资者来说，应该尽可能地发掘上述例子这类结果不确定但预期回报很丰厚的投资机会，而且数量越多越好，几百个项目里面肯定有一些会成功，一些会失败，但平均来看，这些投资者最终会像保险公司或赌场那样挣到大钱。

如果预期收益对你有利，那么涉足的项目越多，赚钱的机会就越大。

数据分析

1、基础数据的选择第一件事：

抽取具有代表性的数据样本：

随机抽取

好样本获取比想象的难

耸人听闻的夸张结论多源于正确的统计方法被应用在了糟糕的样本上

样本容量越大越好

第二件事：

比较（控制组与对比组）

第三件事：

尽可能多的收集数据：

纵向数据集与横向数据集

2、常见的统计数据错误特点

选择性偏见

发表性偏见

记忆性偏见

幸存者偏见

健康用户偏见

数据就是线索

3、雄性果蝇的借酒消愁

而实验的真相却简单得令人难以置信。

一组雄性果蝇可以与正常雌性果蝇自由交配；另一组雄性果蝇所在空间内的雌性果蝇在此之前已经完成了交配，因此它们对雄性果蝇的“猛烈攻势”毫无兴趣。

随后，研究人员为这两组雄性果蝇提供了两种喂食棒：

一种是普通的果蝇食物—饲料酵母和糖分，另一种是“硬家伙”—除了饲料酵母和糖分，还添加了酒精浓度为15度的酒。

那些花了几天时间想要与“性冷淡”的雌性果蝇交配的雄性果蝇，显然对烈酒更有兴趣。

尽管这个实验还存在一些不尽如人意的地方，但得出的结论对于人类来说依然具有重要的意义，实验结果暗示了压力、大脑的化学反应和对酒精的欲望三者之间存在联系。

但这样的一个结论并不是统计学的胜利，而是数据的胜利，正是数据让相对基础的统计分析成为可能。

这项研究的天才之处在于寻找到了适当的方式，创造了一组性欲得到满足和一组“欲求不满”的雄性果蝇，然后设计了一个能够比较两组果蝇饮食区别的方法。

一旦完成了这几个步骤，接下来的数据分析基本上就只有高中科学实验课

统计学0.docx

热门标签