用 PHP 使 Web 数据分析进入更高境界.docx
- 文档编号:10436452
- 上传时间:2023-02-11
- 格式:DOCX
- 页数:19
- 大小:81.05KB
用 PHP 使 Web 数据分析进入更高境界.docx
《用 PHP 使 Web 数据分析进入更高境界.docx》由会员分享,可在线阅读,更多相关《用 PHP 使 Web 数据分析进入更高境界.docx(19页珍藏版)》请在冰豆网上搜索。
用PHP使Web数据分析进入更高境界
用PHP使Web数据分析进入更高境界
核心提示:
对Web数据进行有效和多层次的分析是许多面向Web企业能够生存的关键因素,数据分析检验的设计(和决策)通常是系统管理员和内部应用程序设计人员的工作,而他们可能除了能够把原始计数制成表格之外,对统计学没有更多的了解。
设计您的数据分析,做比简单原始计数更多的事。
对Web数据进行有效和多层次的分析是许多面向Web企业能够生存的关键因素,数据分析检验的设计(和决策)通常是系统管理员和内部应用程序设计人员的工作,而他们可能除了能够把原始计数制成表格之外,对统计学没有更多的了解。
在本文中,PaulMeagher向Web开发人员传授了将推论统计学应用到Web数据流所需的技能和概念。
动态网站不断生成大量的数据—访问日志、民意测验和调查结果、客户概要信息、订单及其它,Web开发人员的工作不仅是创建生成这些数据的应用程序,而且还要开发使这些数据流有意义的应用程序和方法。
通常,对于由管理站点所产生的不断增长的数据分析需求,Web开发人员的应对是不够的。
一般而言,除了报告各种描述性统计信息之外,Web开发人员并没有其它更好的方法来反映数据流特征。
有许多推论统计步骤(根据样本数据估计总体参数的方法)可以被充分利用,但目前却没有应用它们。
例如,Web访问统计信息(按当前所编辑的)只不过是以各种方式进行分组的频率计数。
以原始计数和百分比表示民意测验和调查结果的情况比比皆是。
开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了,我们不应期望太多。
毕竟,有从事较复杂的数据流分析的专业人士;他们是统计师和受过训练的分析师。
当组织需要的不仅仅是描述性统计时,可以请他们加入。
但另一种应对是承认对推论统计学日益加深的了解正成为Web开发人员工作描述的一部分。
动态站点正在生成越来越多的数据,事实表明,设法将这些数据变成有用的知识正是Web开发人员和系统管理员的责任。
我提倡采取后一种应对;本文旨在帮助Web开发人员和系统管理员学习(或重温,如果知识已遗忘的话)将推论统计学应用到Web数据流所需的设计和分析技能。
使Web数据与实验设计相关
将推论统计学应用到Web数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。
将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要:
测量尺度是什么?
样本的代表性如何?
总体是什么?
正在检验的假设是什么?
要将推论统计学应用到Web数据流,需要先把结果看作是由实验设计生成的;然后选择适用于该实验设计的分析过程。
即使您可能认为将Web民意测验和访问日志数据看作实验的结果是多此一举,但这样做确实很重要。
为什么?
1、这将帮助您选择适当的统计检验方法。
2、这将帮助您从收集的数据中得出适当的结论。
在确定要使用哪些适当的统计检验时,实验设计的一个重要方面是选择数据收集的衡量尺度。
衡量标准的示例
测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。
例如,千克尺度允许您给一个物体分配数字,根据测量仪器的标准化的偏移量指示该物体的重量。
有四种重要的衡量标准:
定比尺度(ratio)—千克尺度是定比尺度的一个示例?
分配给物体属性的符号具有数字意义。
您可以对这些符号执行各种运算(如计算比率),而对于通过使用功能不那么强大的衡量标准获得的数值,您不能使用这些运算。
定距尺度(interval)—在定距尺度中,任意两个相邻测量单位之间的距离(也称为间距)是相等的,但零点是任意的。
定距尺度的示例包括对经度和潮汐高度的度量,以及不同年份始末的度量。
定距尺度的值可以加减,但乘除则没有意义。
定序尺度(rank)—定序尺度可应用于一组有顺序的数据,有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。
常见的示例包括“好恶”民意测验,其中将数字分配给各个属性(从1=非常厌恶到5=非常喜欢)。
通常,一组有序数据的类别有自然的顺序,但尺度上相邻点之间的差距不必总是相同的。
对于有顺序的数据,您可以计数和排序,但不能测量。
定类尺度(nominal)—衡量标准的定类尺度是衡量标准中最弱的一种形式,主要指将项目分配给组或类别。
这种测量不带数量信息,并且不表示对项目进行排序。
对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。
下表对比了每种衡量标准的特征:
衡量标准尺度属性具有绝对的数字含义吗?
能执行大多数数学运算吗?
定比尺度是。
是。
定距尺度对于定距尺度是这样;零点是任意的。
加和减。
定序尺度不是。
计数和排序。
定类尺度不是。
只能计数。
在本文中,我将主要讨论通过使用测量的定类尺度收集的数据,以及适用于定类数据的推论技术。
使用定类尺度
几乎所有Web用户—设计人员、客户和系统管理员—都熟悉定类尺度。
Web民意测验和访问日志类似,因为它们常常使用定类尺度作为衡量标准。
在Web民意测验中,用户常常通过请求人们选择回答选项(如“您偏爱品牌A、品牌B,还是品牌C?
”)来衡量人们的偏好。
通过对各类回答的频率进行计数来汇总数据。
类似的,测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天,然后对每一天出现的点击或访问的数目计数。
另外,您可以(也确实可以)通过浏览器类型、操作系统类型和访问者所在的国家或地区—以及任何您想得到的分类尺度—对点击计数。
因为Web民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数,所以可以用相似的无参数统计检验(允许您根据分布形状而不是总体参数作出推论的检验)来分析它们。
DavidSheskin在他的HandbookofParametricandNon-ParametricStatisticalProcedures一书(第19页,1997)中,是这样区分参数检验和非参数检验的:
本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。
作为通用规则,评估类别/定类尺度数据和顺序/等级-顺序数据的推论统计检验被归类为非参数检验,而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。
当作为参数检验基础的某些假设值得怀疑时,非参数检验也很有用;当不满足参数假设时,非参数检验在检测总体差异时有很大的作用。
对于Web民意测验的示例,我使用了非参数分析过程,因为Web民意测验通常使用定类尺度来记录投票者的偏好。
我并不是在建议Web民意测验和Web访问统计信息应该始终使用定类尺度衡量标准,或者说非参数统计检验是唯一可用于分析这类数据的方法。
不难设想有(譬如)这样的民意测验和调查,它们要求用户对每个选项提供数值评分(从1到100),对此,参数性的统计检验就比较合适。
尽管如此,许多Web数据流包括编辑类别计数数据,而且通过定义定距尺度(譬如从17到21)并将每个数据点分配给一个定距尺度(如“年轻人”),可以将这些数据(通过使用功能更强大的衡量标准测量)变成定类尺度数据。
频率数据的普遍存在(已经是Web开发人员经验的一部分),使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。
为了使本文保持合理的篇幅,我将把对Web数据流分析的讨论局限于Web民意测验。
但是请记住,许多Web数据流都可以用定类计数数据表示,而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。
从抽样开始
假设您在您的站点www.NovaScotiaBeerD上进行每周一次的民意测验,询问成员对各种主题的意见。
您已经创建了一个民意测验,询问成员喜爱的啤酒品牌(在加拿大新斯科舍省(NovaScotia)有三种知名的啤酒品牌:
Keiths、Olands和Schooner)。
为了使调查尽可能范围广泛,您在回答中包括“其它”。
您收到1,000条回答,请观察到表1中的结果。
(本文显示的结果只作为演示之用,并不基于任何实际调查。
)
表1.啤酒民意测验KeithsOlandsSchooner其它
285(28.50%)250(25.00%)215(21.50%)250(25.00%)
这些数据看上去支持这样的结论:
Keiths是最受新斯科舍省居民欢迎的品牌。
根据这些数字,您能得出这一结论吗?
换句话说,您能根据从样本获得的结果对新斯科舍省的啤酒消费者总体作出推论吗?
许多与样本收集方式有关的因素会使相对受欢迎程度的推论不正确。
可能样本中包含了过多Keiths酿酒厂的雇员;可能您没有完全预防一个人投多次票的情况,而这个人可能使结果出现偏差;或许被挑选出来投票的人与没有被挑选出来投票的人不同;或许上网的投票人与不上网的投票人不同。
大多数Web民意测验都存在这些解释上的困难。
当您试图从样本统计数据得出有关总体参数的结论时,就会出现这些解释上的困难。
从实验设计观点看,在收集数据之前首先要问的一个问题是:
能否采取步骤帮助确保样本能够代表所研究的总体。
如果对所研究的总体得出结论是您做Web民意测验的动机(而不是为站点访问者提供的消遣),那么您应该实现一些技术,以确保一人一票(所以,他们必须用唯一的标识登录才能投票),并确保随机选择投票者样本(例如,随机选择成员的子集,然后给他们发电子邮件,鼓励他们投票)。
最终,目标是消除(至少减少)各种偏差,它们可能会削弱对所研究总体得出结论的能力。
检验假设
假设新斯科舍省啤酒消费者统计样本没有发生偏差,您现在能够得出Keiths是最受欢迎品牌这一结论吗?
要回答这个问题,请考虑一个相关的问题:
如果您要获得另一个新斯科舍省啤酒消费者的样本,您希望看到完全相同的结果吗?
实际上,您会希望不同样本中所观察到的结果有一定的变化。
考虑这个预期的抽样可变性,您可能怀疑通过随机抽样可变性是否比反映所研究总体中的实际差异能更好地说明观察到的品牌偏好。
在统计学术语中,这个抽样可变性说明被称为虚假设(nullhypothesis)。
(虚假设由符号Ho表示)在本例中,用公式将它表示成这样的语句:
在作出回答的所有类别中,各种回答的期望数目相同。
Ho:
#Keiths=#Olands=#Schooner=#Other
如果您能够排除虚假设,那么您在回答Keiths是否是最受欢迎品牌这个最初的问题上取得了一些进展。
那么,另一个可接受的假设是在所研究的总体中,各种回答所占比例不同。
这个“先检验虚假设”逻辑在民意测验数据分析中的多个阶段都适用。
排除这一虚假设,这样数据就不会完全不同,随后您可以继续检验一个更具体的虚假设,即Keiths和Schooner,或者Keiths与其它所有品牌之间没有差别。
您继续检验虚假设而不是直接评估另一假设,是因为对于在虚假设条件下人们希望观察到的事物进行统计建模更容易。
接下来,我将演示如何对在虚假设下所期望的事物建模,这样我就可以将观察结果与在虚假设条件下所期望的结果加以比较。
对虚假设建模:
X平方分布统计
到目前为止,您已经使用一个报告每种回答选项频率计数(和百分比)的表汇总了Web民意测验的结果。
要检验虚假设(表单元频率之间不存在差别),计算每个表单元与您在虚假设条件下所期望值的总体偏差度量要容易得多。
在这个啤酒欢迎度民意测验的示例中,在虚假设条件下的期望频率如下:
期望频率=观察数目/回答选项的数目
期望频率=1000/4
期望频率=250
要计算每个单元中回答的内容与期望频率相差多少的总体度量,您可以将所有的差别总计到一个反映观察频率与期望频率相差多少的总体度量中:
(285-250)+(250-250)+(215-250)+(250-250)。
如果您这么做,您会发现期望频率是0,因为平均值的偏差的和永远是0。
要解决这个问题,应当取所有差值的平方(这就是X平方分布(ChiSquare)中平方的由来)。
最后,为了使各样本(这些样本具有不同的观察数)的这个值具有可比性(换句话说,使它标准化),将该值除以期望频率。
因此,X平方分布统计的公式如下所示(“O”表示“观察频率”,“E”等于“期望频率”):
图1.X平方分布统计的公式
如果计算啤酒欢迎度民意测验数据的X平方分布统计,会得到值9.80。
要检验虚假设,需要知道在假设存在随机抽样可变性的情况下获得这么一个极限值的概率。
要得出这一概率,需要理解X平方分布的抽样分布是什么样的。
观察X平方分布的抽样分布
图2.X平方分布图
在每幅图中,横轴表示所得到的X平方分布值大小(图中所示范围从0到10)。
纵轴显示各X平方分布值的概率(或称为出现的相对频率)。
当您研究这些X平方分布图时,请注意,当您在实验中改变自由度(即df)时,概率函数的形状会改变。
对于民意测验数据的示例,自由度是这样计算的:
记下民意测验中的回答选项(k)的数目,然后用这个值减1(df=k-1)。
通常,当您在实验中增加回答选项的数目时,获得较大X平方分布值的概率会下降。
这是因为当增加回答选项时,就增加了方差值的数目—(观察值-期望值)2—您可以求它的总数。
因此,当您增加回答选项时,获得大的X平方分布值的统计概率应该增加,而获得较小X平方分布值的概率会减少。
这就是为什么X平方分布的抽样分布的形状随着df值的不同而变化的原因。
此外,要注意到通常人们对X平方分布结果的小数点部分不感兴趣,而是对位于所获得的值右边曲线的总计部分感兴趣。
该尾数概率告诉您获取一个象您观察到的极限值是可能(如一个大的尾数区域)还是不可能(小的尾数区域)。
(实际上,我不使用这些图来计算尾数概率,因为我可以实现数学函数来返回给定X平方分布值的尾数概率。
我在本文后面讨论的X平方分布程序中会采用这种做法。
)
要进一步了解这些图是如何派生出来的,可以看看如何模拟与df=2(它表示k=3)对应的图的内容。
想象把数字1、2和3放进帽子里,摇一摇,选一个数字,然后记录所选的数字作为一次尝试。
对这个实验进行300次尝试,然后计算1、2和3出现的频率。
每次您做这个实验时,都应当期望结果有稍微不同的频率分布,这一分布反映了抽样的可变性,同时,这个分布又不会真正偏离可能的概率范围。
下面的Multinomial类实现了这一想法。
您可以用以下值初始化该类:
要做实验的次数、每个实验中所做尝试的次数,以及每次试验的选项数目。
每个实验的结果记录在一个名为Outcomes的数组中。
清单1.Multinomial类的内容
以下为引用的内容:
php
//Multinomial.php
//Copyright2003,PaulMeagher
//DistributedunderLGPL
classMultinomial{
var$NExps;
var$NTrials;
var$NOptions;
var$Outcomes=array();
functionMultinomial($NExps,$NTrials,$NOptions){
$this->NExps=$NExps;
$this->NTrials=$NTrials;
$this->NOptions=$NOptions;
for($i=0;$i<$this->NExps;$i++){
$this->Outcomes[$i]=$this->runExperiment();
}
}
functionrunExperiment(){
$Outcome=array();
for($i=0;$i<$this->NExps;$i++){
$choice=rand(1,$this->NOptions);
$Outcome[$choice]++;
}
return$Outcome;
}
}
?
>
请注意,runExperiment方法是该脚本中非常重要的一部分,它保证在每次实验中所做出的选择是随机的,并且跟踪到目前为止在模拟实验中做出了哪些选择。
为了找到X平方分布统计的抽样分布,只需获取每次实验的结果,并且计算该结果的X平方分布统计。
由于随机抽样的可变性,因此这个X平方分布统计会随实验的不同而不同。
下面的脚本将每次实验获得的X平方分布统计写到一个输出文件以便稍后用图表表示。
清单2.将获得的X平方分布统计写到输出文件
以下为引用的内容:
php
//simulate.php
//Copyright2003,PaulMeagher
//DistributedunderLGPL
//Settimelimitto0soscriptdoesn'ttimeout
set_time_limit(0);
require_once"../init.php";
requirePHP_MATH."chi/Multinomial.php";
requirePHP_MATH."chi/ChiSquare1D.php";
//Initializationparameters
$NExps=10000;
$NTrials=300;
$NOptions=3;
$multi=newMultinomial($NExps,$NTrials,$NOptions);
$output=fopen("./data.txt","w")ORdie("filewon'topen");
for($i=0;$i<$NExps;$i++){
//Foreachmultinomialexperiment,dochisquareanalysis
$chi=newChiSquare1D($multi->Outcomes[$i]);
//Loadobtainedchisquarevalueintosamplingdistributionarray
$distribution[$i]=$chi->ChiSqObt;
//Writeobtainedchisquarevaluetofile
fputs($output,$distribution[$i]."n");
}
fclose($output);
?
>
为了使运行该实验所期望获得的结果可视化,对我来说,最简单的方法就是将data.txt文件装入开放源码统计包R,运行histogram命令,并且在图形编辑器中编辑该图表,如下所示:
x=scan("data.txt")
hist(x,50)
正如您可以看到的,这些X平方分布值的直方图与上面表示的df=2的连续X平方分布的分布近似。
图3.与df=2的连续分布近似的值
在下面几节中,我将侧重于说明这个模拟实验中所使用的X平方分布软件的工作原理。
通常情况下,X平方分布软件将用于分析实际的定类尺度数据(例如Web民意测验结果、每周的流量报告或者客户品牌偏好报告),而不是您使用的模拟数据。
您可能还会对该软件生成的其它输出—例如汇总表和尾数概率—感兴趣。
X平方分布的实例变量
我开发的基于php的X平方分布软件包由用于分析频率数据的类构成,频率数据是按照一维或两维(ChiSquare1D.php和ChiSquare2D.php)进行分类的。
我的讨论将仅局限于说明ChiSquare1D.php类的工作原理,以及说明如何将其应用于一维Web民意测验数据。
在继续之前,应当说明:
按照两维对数据进行分类(例如,按照性别对啤酒偏好进行分类),允许您通过查找列联表单元中的系统关系或条件概率开始说明您的结果。
尽管下面的许多讨论将有助于您理解ChiSquare2D.php软件的工作原理,但本文未讨论的其它实验、分析和可视化问题也是使用这个类之前必须处理的。
清单3研究了ChiSquare1D.php类的片段,它由以下部分构成:
1、一个被包含的文件
2、类实例变量
清单3、带有被包含的文件和实例变量的X平方分布类的片段
以下为引用的内容:
php
//ChiSquare1D.php
//Copyright2003,PaulMeagher
//DistributedunderLGPL
require_oncePHP_MATH."dist/Distribution.php";
classChiSquare1D{
var$Total;
var$ObsFreq=array();//Observedfrequencies
var$ExpFreq=array();//Expectedfrequencies
var$ExpProb=array();//Expectedprobabilities
var$NumCells;
var$ChiSqObt;
var$DF;
var$Alpha;
var$ChiSqProb;
var$ChiSqCrit;
}
?
>
清单3中这个脚本的顶部包含了一个名为Distribution.php的文件。
所包含的路径合并了在init.php文件中设置的PHP_MATH常量,假定init.php文件已包含在调用脚本中。
所包含的文件Distribution.php包含了为几个常用的抽样分布(T分布、F分布和X平方分布)生成抽样分布统计信息的方法。
ChiSquare1D.php类必须能够访问Distribution.php中的X平方分布方法,以计算所得到的X平方分布值的尾数概率。
这个类中的实例变量列表值得注意,因为它们定义了由分析过程生成的结果对象。
这个结果对象包含了有关检验的所有重要详细信息,包括三个重要的X平方分布统计—ChiSqObt、ChiSqProb和ChiSqCrit。
关于如何计算每个实例变量的详细信息,可以查阅该类的构造函数方法,所有这些值都源自那里。
构造函数:
X平方分布检验的主干
清单4给出了X平方分布的构造函数代码,它构成了X平方分布检验的主干。
清单4、X平方分布的构造函数
以下为引用的内容:
php
classChiSquare1D{
functionChiSquare1D($ObsFreq,$Alpha=0.05,$ExpProb=FALSE){
$this->ObsFreq=$ObsFreq;
$this->ExpProb=$ExpProb;
$this->Alpha=$Alpha;
$this->NumCells=count($this->ObsFreq);
$this->DF=$this->NumCells-1;
$this->Total=$this->getTotal();
$this->ExpFreq=$this->getExpFreq();
$this->ChiSqObt=$this->get
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- PHP Web 数据分析进入更高境界 数据 分析 进入 更高 境界