大数据统计学实践报告Word文档下载推荐.docx
- 文档编号:21863577
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:25
- 大小:30.28KB
大数据统计学实践报告Word文档下载推荐.docx
《大数据统计学实践报告Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《大数据统计学实践报告Word文档下载推荐.docx(25页珍藏版)》请在冰豆网上搜索。
维基百科的表述是:
大数据是难以用现有数据库管理工具处理的兼具海量和复杂性特征的数据集成。
国专家涂子沛将大数据定义为那些大小已经超出传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。
对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
(二)理论意义
管理统计学课程是近年来经济管理类专业新开的专业基础课程,目的是培养经管类学生能够把统计学知识运用到经济管理中来解决实际问题。
随着社会的发展,企业对经济管理类学生的数据处理能力有更高的需求,因此管理统计学的开设满足经管类学生及企业的需求。
随着云时代的到来和互联网技术的发展,大数据即大数据技术出现了。
1.数据收集方式和容变化
以往的数据收集方法主要有统计调查和试验方法。
根据实际研究需要,收集社会经济现象的统计数据和自然科学领域的数据。
这些数据是数字、文字等结构化的数据。
大数据时代,统计数据的产生方式呈现多样化,如有浏览痕迹、监控视频、GPS系统等产生方式,产生的数据多为非结构化数据很难用二维表格表示,如所有格式的办公文档、文本、图片、HTML、各类图像和音频、视频信息等。
结构化数据出现,统计数据的收集方式和容将会改变。
2.数据处理的对象和方法放发生变化
管理统计学中推断统计学的参数估计方法和假设检验方法,主要采用抽样调查法,利用样本数据的信息来估计或者计算总体参数情况。
大数据不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
在大数据下,样本集总体,处理数据不再仅仅依赖样本进行数据的推断统计。
另外依靠小概率事件不可能发生的参数估计和假设检验方法就失去了处理大数据的意义。
但一些传统的数据分析方法,如聚类分析、相关分析、回归分析等方法,仍然是可以使用的。
虽然这些传统的分析方法已经被应用于大数据领域,但是他们在处理规模较大的数据集合时,效率无法达到用户预期,且难以处理复杂的数据。
3.大数据时代下传统统计学的变革
大数据时代的到来,给统计学的发展带来了前所未有的机遇,但同时,也对统计学提出了更多的挑战。
在此,本文将从以下7个方面阐述大数据时代下传统统计学的变革。
(1)样本概念的深化
除普查以外,传统统计学离不开样本,样本是研究中实际观测或调查的一部分个体,一个可用的样本必须能够正确地反映总体情况。
大数据时代,样本的概念不再这么简单,由于此时数据大部分为网络数据,因此可以将其分为两种类型:
一是静态数据,即当客户在查看数据时已经被生成好了,没有和服务器数据库进行交互的数据,直接在客户端创建完毕,对于这种数据,样本等同于总体,这样无需去提取样本并检测样本的可用性,减少了成本,并且总体本身对总体的反映更为准确,减少了误差;
二是动态数据,比如数据是随着时间的推移而变化的,此时,总体表现为历史长河中所有数据的总和,而我们分析的对象为“样本”,这里的“样本”与传统样本的概念不同,因其并非局限于随机抽取的数据,更可以是选定的与分析目的相关的数据。
(2).数据类型的扩大。
传统意义上的数据为结构化数据,即可以用常规统计指标或图表表现出来的定量数据或专门设计的定性数据,有固定的结构和标准。
大数据是指不仅包括结构化数据,还包含非结构化数据、半结构化数据或异构数据,即一切可以记录和存储的信号,具有多样化的特点,并且传统的统计指标等不一定可以将其完整地表述出来;
其次,大数据的存储不同于传统的数据存储方式,有固定的格式和结构,对于大数据的数据库来说,可以直接将所探测到的信号自动容纳到其中;
最后,由于大数据大部分是指非结构化以及半结构化数据,因此对数据的识别和分类也是多样的,通常用网络信息系统作为识别工具。
(3).收集概念的扩展。
传统统计中,数据的收集需要根据统计分析的目的进行,过程包括设计调查方案、严格控制调查流程,因此具有低效率、高成本的缺点。
在大数据时代,对数据的收集分为三步,首先是数据预处理,包括识别与整理;
其次是数据分析,目的为提炼有价值的信息;
最后为数据存储。
我们拥有超大量可选择的数据,同时,在存储能力、分析能力、甄别数据的真伪、选择关联物、提炼和利用数据、确定分析节点等方面,都需要斟酌。
然而,这并不代表大数据时代搜集的数据是万能的,我们仍然需要有针对性地搜集,不仅如此,还存在着安全性和成本的问题。
因此,我们应该将传统方法中有针对性的收集数据的优点和现代方法中利用高效率的技术和广泛数据源的优点结合起来,收集一切相关数据。
(4).数据来源的不同。
传统统计中是根据研究目的去收集数据,数据来源通常是已知的,很容易对数据提供者的身份进行识别或进行事后核对。
而大数据的来源则很难追溯,由于大数据的来源一般为信息网络系统,不具有很强的目的性,更是一切被人为记录的信号(尽管信号有其目的性,但多数为发散的),并且很难识别记录者的身份。
在大数据时代,努力打造统计数据来源第二轨,就显得尤为重要。
(5).量化方式的变化。
传统数据为结构化数据,对数据的量化方式已经相当成熟,并且比较容易得到可以直接进行分析的数据结果。
大数据时代主要面对的是非结构化数据,Franks说过:
“几乎没有哪种分析过程能够直接对非结构化数据进行分析,也无法直接从非结构化的数据中得出结论”。
目前,计算机学界已着手研发处理非结构化数据的技术,从统计角度直接处理非结构化数据,或将其量化成结构化数据,这是一个重要的研究领域。
(6).分析思维的改变。
我们从统计分析、实证分析、推断分析三个方面论述大数据时代传统统计学分析思维的改变。
第一,传统的统计分析过程分为三步,定性、定
量、再定性。
首先通过经验判断找到统计方向,即目的;
其次对数据进行量化、分
直接从各种“定量的回应”中找出有价值的、为我们所需要的数据,并通过分析找到数据的特征和数量关系,进而据此做出判断与决策。
第二,传统的统计实证分析,思路是“假设—验
析、处理等;
最后根据结果得出结论。
大数据时代,统计分析过程为“定
量—定性”,基础性的工作就是找到“定量的回应”,
第二,传统的统计实证分析,思路是“假设—验证”,即首先提出假设,接着按照统计方法进行数据
的收集、分析、展示,最后通过所得到的结论对假设进行验证。
事实证明,这种实证分析存在很大误差。
大数据时代,实证分析的思路是“发现—总结”,为
了更全面、深入地了解研究对象,需要对数据进行整合,从中去寻找关系、发现规律,然后再加以总结、形成结论,这将有助于发现更多意外的“发现”。
第三,传统的统计推断分析过程是以分布理论为基础,在概率保证的前提下,对总体进行推断,通常是根据样本特征去推断总体特征,推断是否正确取决于样本的好坏。
现在,其过程变成了以实际分布为基础,根据总体的特征进行概率的判断,在静态或者动态的某个时点,大数据所需处理的对象为总体数据,不需要根据分布理论推断总体特征,而要根据计算方法进行推断。
(7).统计软件的增多。
传统统计学以统计模型和软件为基础进行数据分析处理,统计模型的作用在于对数据间的数量关系进行构建,统计软件是分析和处理数据的工具,需要研究者自主输入经过处理的数据,以及统计模型的公式等。
常见的统计软件有SAS、R、STATA、SPSS、MATLAB等。
大数据所依赖的数据分析技术为非关系型的,以数据中心为基础。
若将统计软件与大数据结合起来,则统计分析的过程可以在很大
程度上简化。
综上所述,大数据时代的来临,对传统统计学的变革从样本的定义方法一直到数据分析的思维与技术均有所体现。
可以看出,大数据使我们对数据的利用取得了更大的主动权,将促使传统统计学的迅速发展。
二.实际意义:
大数据在征信系统中的应用
近期,美国互联网金融公司ZestFinance受到国互联网金融专业人士的热捧,其基于大数据的信用评估模型也越来越受到关注和效仿。
本文结合美国的金
融环境,对ZestFinance进行简要介绍,分析大数据征信产生的背景,剖析大数据征信技术,并全面客观地阐述了大数据征信技术对于中国互联网金融和征信业未来发展的借鉴意义。
一、ZestFinance简介
ZestFinance,原名ZestCash,是美国一家新兴的互联网金融公司,2009年9月成立于洛杉矶,由互联网巨头谷歌(Google)的前信息总监道格拉斯·
梅瑞尔
(DouglasMerrill)和金融机构CapitalOne的信贷部高级主管肖恩·
卜德(Shawn
Budde)(曾管理过收益超过10亿美元的次级信贷业务)联合创办。
ZestFinance的研发团队主要由数学家和计算机科学家组成,前期的业务主要
通过ZestCash平台提供放贷服务,后来专注于提供信用评估服务,旨在利用大数据技术重塑审贷过程,为难以获得传统金融服务
(Underbanked)的个人创造可用的信用,降低他们的借贷成本。
ZestFinance起初是为传统的发薪日贷款(PaydayLoans)提供在线替代的产品。
发薪日贷款因借款人承诺在发薪日还款而得名。
由于美国传统的信用风险评估体系无法覆盖全部的人群,大约15%的人因没有信用评分而被银行排斥在外,无法获得基本的信贷需求。
ZestFinance引起国的关注始于2013年7月,当时全球第三方支付平台PayPal联合创始人、美国知名投资人彼得·
泰尔(Peter
Thiel)领投了ZestFinance的2000万美元融资。
二、为什么要进行大数据评估传统的信用评估服务无法覆盖全体人群,特别是弱势群体?
大数据征信应用与启示<
wbr>
——以美国互联网金融公司<
ZestFinance为例
图
1展示了美国FICO评分与其对应的人口分布情况,初始每个人的分值基数为850分,信用评分模型利用征信数据从多个评分因素考察消费者的信用风险,从
850分中减分。
大致来看,美国个人消费者信用评分人群分布状况呈现两头小中间大的形态,信用分数处于750~850的人群有40%之多,其用分数在
800~850大约占总人数的13%,在750~799超过总人数的25%,这是整个信用社会的中间阶层,对应于美国的中产阶级。
其中,美国个人消费者的
平均FICO评分为678。
从图1可以看出,还有大量的人群远低于平均的678分,如FICO评分在550~549的占8%,在500~549的占5%,小于499分的占2%。
根据FICO的标准,如果人们未能如期还款,或者缺乏借贷经历,他们就会自动被视为风险人士,他们的贷款也就会被惩罚性地给以更高
的利率。
还有一种可能,那就是他们的贷款申请会被拒,无论是否事出有因。
比如,遇到了医疗紧急事故,或者最近刚刚移民美国。
表1根据FICO评分将服务人
群分为四个区间,并对应不同的金融服务机构。
信用记录不完整或者不够完善的个人消费者,依据传统信用评估体系(FICO评分),往往很难被传统金融服务机
构所覆盖,即使在金融体系发达的美国也无法获得常规的金融服务,或者需要付出很大的代价才能获得常规的金融服务。
三、传统信用评估模型信息维度比较单一
传统的FICO评分模型的基本思想是比较借款人信用历史资料与数据库中的全体借款人的信用习惯,检查借款人的发展趋势跟经常违约、随意透支,甚至申请破产等
各种陷入财务困境的借款人的发展趋势是否相似。
如图2所示,它主要从五个方面考察用户的信贷资质。
但随着信贷业务的进一步开展,FICO信用评分由于单一的标准、严苛的门槛和片面的评估结果而饱受诟病。
传统的信用评估模型虽然在进行信用风险管理过程中发挥了很大的作用,如曾经促进了美国房贷市场的飞速发展。
但在大数据背景下个人消费者出现许多信息维度,如电子商务、社交网络和搜索行为等,传统信用评估模型解决问题的能力越来越受限。
四、传统信用评估模型时间上比较滞后
虽然FICO评分仍然体现风险排序,但其预测绝对风险的能力和在2008年金融危机中的表现饱受指责,图3展示,FICO分数从2005年到2011年在美国人口中的分布基本上没有大的变化,这和2008年金融危机爆发之后出现大量坏账的现实严重不符。
由于传统的基于FICO评分的信用评估模型覆盖人群窄、信息维度单一、时间上滞后,所以,在大数据时代,需要探索信用评估的新思路。
国外三大征信机构和
FICO公司都已经开始了如何利用大数据技术来完善传统信用评估体系的前瞻性研究,如益百利(Experian)投入研究团队关注社交网络数据对信用评分
的影响,FICO公司多年前就开始了在线评估的信息工具和基于互联网的信用评估系统的项目研究。
五、ZestFinance大数据信用评估的实践
ZestFinance的基本理念是认为一切数据都是和信用有关,在能够获取的数据中尽可能地挖掘信用信息。
ZestFinance对大数据技术的应用主要从大数据采集和大数据分析两个层面为缺乏信用记录的人挖掘出信用。
(一)大数据采集技术
ZestFinance以大数据技术为基础采集多源数据,一方面继承了传统征信体系的决策变量,重视深度挖掘授信对象的信贷历史。
另一方面,将能够影响用户信贷水平的其他因素也考虑在,如社交网络信息、用户申请信息等,从而实现了深度和广度的高度融合。
ZestFinance的数据来源十分丰富,依赖于结构化数据的同时也导入了大量的非结构化数据。
另外,它还包括大量的非传统数据,如借款人的房租缴纳记录、典当行记录、网络数
据信息等,甚至将借款人填写表格时使用大小写的习惯、在线提交申请之前是否阅读文字说明等极边缘的信息作为信用评价的考量因素。
类似地,非常规数据是客观
世界的传感器,反映了借款人真实的状态,是客户真实的社会网络的映射。
只有充分考察借款人借款行为背后的线索及线索间的关联性,才能提供深度、有效的数据
分析服务,降低贷款违约率。
如图4所示,ZestFinance的数据来源的多元化体现在:
首先,对于ZestFinance进行信用评估最重要的数据还是通过购买或者交换来自于第三方的数据,既包含银行和信用卡数据,也包括法律记录、搬家次数等非传统数据。
再次是网络数据,如IP地址、浏览器版本甚至电脑的屏幕分辨率,这些数据可以挖掘出用户的位置信息、性格和行为特征,有利于评估信贷风险。
此外社交网络数据也是大数据征信的重要数据源。
最后,直接询问用户。
为了证明自己的还款能力,用户会有详细、准确回答的激励,另外用户还会提交相关的公共记录的凭证,如水电气账单、手机账单等。
多维度的征信大数据可以使得ZestFinance能够不完全依赖于传统的征信体系,对个人消费者从不同的角度进行描述和进一步深入地量化信用评估。
(二)大数据分析模型
图5展示了ZestFinance的信用评估分析原理,融合多源信息,采用了先进机器学习的预测模型和集成学习的策略,进行大数据挖掘。
首先,数千种来源于
第三方(如账单和租赁历史等)和借贷者的原始数据将被输入系统。
其次,寻找数据间的关联性并对数据进行转换。
再次,在关联性的基础上将变量重新整合成
较大的测量指标,每一种变量反映借款人的某一方面特点,如诈骗概率、长期和短期的信用风险和偿还能力等。
然后将这些较大的变量输入到不同的数据分析模型中去。
最后,将每一个模型输出的结论按照模型投票的原则,形成最终的信用分数。
其中,ZestFinance开发了10个基于机器学习的分析模型,对每位信贷申请人的超过1万条数据信息进行分析,并得出超过7万个可对其行为做出测量的
指标,在5秒钟就能全部完成。
这10个模型以如下的方式进行投票:
让你最聪明的10个朋友坐在一桌子旁,然后询问他们对某一件事情的意见。
这种机制的
决策性能远远好于业界的平均水平。
近年来,这种基于大数据的信用风险评估框架(远不能称为主流的信用评估方法)被国外多家互联网金融机构采用,如德国的Kreditech、美国的Kabbage,以及国最近获得IDG公司A首轮4000万元投资的闪银(Wecash)等,对传统的信用体系形成了冲击。
如表2所示,将这种将基于大数据技术的信用评估体系和传统信用评估(以美国的征信体系为例)相比,发现主要的区别有以下几个方面。
(1)从服务的人群来说,新的信用评估体系可以服务没有被传统征信体系覆盖的人群,即没有征信记录的人群(美国的征信体系能够覆盖85%的人群,覆盖不到15%的人群)。
(2)从数据源来说,这种新的信用风险评估体系大量采用非传统的信用数据,包括互联网上的行为数据和关系数据,传统的信用数据(银行信贷数据)的比重仅占到了40%,甚至完全不用传统的信贷信用数据进行风险评估。
(3)从关注的侧重点来看,传统的信用评估模型更关注授信对象的历史信息,致力于深度挖掘。
而新的信用评估体系更看重用户现在的信息,致力于横向拓展。
(4)信用量化评估的方式也发生了改变,新的信用评估体系抛弃了只用很少变量的FICO信用评分模型,基于大数据技术,不仅采用机器学习的模型,而且使用更多变量,一方面可以使信用评估的决策效率提高,另一方面还明显降低了风险违约率。
六、对中国互联网金融和信用评估的启示
利用大数据技术的信用评估方法在现实中有着很大的市场需求,如国快速发展的互联网金融中的风险管理问题。
目前互联网金融处于快速的发展过程中,根据银监会的统计,目前国可查的P2P网贷公司已经达到1200家。
信用风险评估是P2P网贷的核心问题,存在很多挑战,如很多信贷客户没有或者是缺乏银行的信贷记录。
在应对风险控制的挑战时,ZestFinance受到了互联网金融机构的热捧,目前国多家互联网金融机构正在和ZestFinance洽谈合作,认为这种利用大数据技术的信用评估方法是解决国互联网金融和普惠金融的信用风险管理问题的灵丹妙药。
然而对于ZestFinance的大数据征信技术,还需要有全面的认识。
(1)ZestFinance
的大数据征信是完善和更新传统征信系统的积极尝试,而不是替代品。
美国的金融体系比较健全,而且信用体系也比较健全,这是ZestFinance赖以生存
的土壤。
ZestFinance的服务人群定位比较清晰,并且有完善的征信体系做支撑,ZestFinance并不是完全摆脱传统征信体系,在
ZestFinance进行信用评估时,传
统征信数据要占到至少30%。
中国的金融生态环境和美国还是有一定的差别,ZestFinance的经验不能直接照抄照搬,需要进行消化吸收,结合中国的
实际情况来进行大数据征信。
另外,生活在互联网时代,面对大数据技术的发展,美国三大征信机构以及FICO也已经开始大数据征信方面的研发(作为常规的数
据源更新的一种方式),但截至目前,尚未形成独立的信用评估手段。
(2)ZestFinance的体量不大,目前仅为10万美国人提供了服务,在美国的影响力有限,真实的效果目前还很难总体评价。
截至2013年7月,ZestFinance的C轮融资达到2亿美元。
(3)ZestFinance的大数据分析模型也给信用风险管理带来复杂性的挑战。
传统的基于FICO的信用评估方法,处理的变量比较少,对每一个变量进行细致地处理,并且可以给出合适的解释,模型的透明性可以方便地在银行的不同部门之间进行沟通,而且便于个人消费者对分数的理解。
ZestFinance的基于大数据的数以千计的变量
规模和多模型使得数据的处理和模型的解释变得比较复杂,在实际应用中会带来许多麻烦。
(4)大数据的应用要注意个人的隐私保护。
ZestFinance在利用个人消费者的大数据进行信用评估时,很多数据会涉及个人隐私,如对于个人社交网络的数据
(微信朋友圈)和电商交易的数据、通话记录、微博的数据等应用,美国对个人隐私的保护是有明确的边界的。
而国关于个人隐私方面的保护目前处于空白,已经出现国一些互联网金融公司为了进行信用评估,忽视个人消费者的知情权和隐私保护。
因此在利用大数据进行信用评估的时候,要考虑使用个人隐私的合规性前提。
虽然以ZestFinance为代表的新兴信用评估体系还不够成熟,但是为征信业的变革注入了活力,特别是对于中国的征信体系的建设会有一定的启示作用。
(1)普惠金融需要挖掘更多人的信用。
国目前真正发挥作用的征信体系主要是央行的征信系统,所覆盖的人群还是非常有限,远远低于美国征信体系对人口的85%的覆盖。
目前我国个人有征信记录的仅有约3.2亿人,约占13.5亿人口中的23.7%。
国数量庞大没有被传统征信体系覆盖的人群同样也需要信用服务,享受金融普惠,这就需要探索征信的新思路。
(2)互联网上的海量信息可以成为征信体系
的新数据源。
ZestFinance的大数据实践的重要方面就是大量地利用互联网上的数据作为征信的数据源。
中国目前是世界上互联网人口最大的国家,截至
2013年12月,中国网民规模达6.18亿人,互联网普及率为45.8%,其中手机网民规模达5亿人,继续稳定增长。
2013年中国网络购物用户规模达3.02亿人,网络使用率达到48.9%。
截至2013年12月,我国使用网上支付的用户规模达到2.6亿人。
这些海量而且丰富的互联网数据资源可以被国征信体系建设很好地利用,通过分析互联网上这些信用主体的基本信息、交易行为信息和金融或经济关系信息,同样可以挖掘出这些信用主体的信用模式。
(3)大数据技术可以使得“一切数据皆信用”成为可能。
以大数据为代表的IT新技术的应用,给征信体系建设带来了新的思路,原来海量庞杂、看似无用的数据,经过清洗、匹配、整合和挖掘,可以转换成信用数据,而且信用评估的效率和准确性也得到了一定程度的提升。
新的信用风险体系的一个颠覆性的基本思想是一切数据皆信用,这是需要大数据技术来支撑的。
国征信体系的建设应当关注大数据技术的应用和发展,并加大投入,勇于实践。
除了解决传统信用评估体系无法解决的无信用评分借贷问题,ZestFinance还主要面向传统信用评估解决不好的领域,将信用分数低而借贷成本高的人群视为服务对象,利用大数据技术降低他们的信贷成本。
与传统信贷管理业务比较,ZestFinance的处理效率提高了将近90%,风险控制方面,ZestFi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数 据统计 实践 报告