东南大学讲座(函数型数据分析引入).ppt
- 文档编号:30852311
- 上传时间:2024-03-02
- 格式:PPT
- 页数:34
- 大小:277.50KB
东南大学讲座(函数型数据分析引入).ppt
《东南大学讲座(函数型数据分析引入).ppt》由会员分享,可在线阅读,更多相关《东南大学讲座(函数型数据分析引入).ppt(34页珍藏版)》请在冰豆网上搜索。
华南师范大学华南师范大学张敏强张敏强2019-112019-11南京南京南京南京(东南大学学习科学研究中心讲座)(东南大学学习科学研究中心讲座)数据处理方法的回顾与函数型数据分析方法的引入1nn数据类型及其缺点数据类型及其缺点截面数据:
截面数据:
定义:
定义:
某一固定时间点上收集到得N个不同对象的数据缺点缺点:
(1)仅反映某一时间点某一时间点上各个体的信息;
(2)数据分析方法依赖于样本分布等强烈的假设条件强烈的假设条件时间序列数据:
时间序列数据:
定义:
定义:
同一对象在一系列按时间序列排列的观测点上所得到的数据,缺点缺点:
(1)数据收集困难,容易缺失容易缺失;
(2)数据模型复杂2近几十年来,由于统计学的不断发展,出现并发展近几十年来,由于统计学的不断发展,出现并发展了一些新的方法解决了很多问题(如结构方程模型、多了一些新的方法解决了很多问题(如结构方程模型、多水平线性模型、潜在类别模型)。
然而,无论获得的是水平线性模型、潜在类别模型)。
然而,无论获得的是截面数据还是时间序列数据,我们只能进行某一横向研截面数据还是时间序列数据,我们只能进行某一横向研究究或纵向研究,同时其前提条件很多不能满足,因此常或纵向研究,同时其前提条件很多不能满足,因此常常导致数据分析结果的不可靠性。
常导致数据分析结果的不可靠性。
3在此基础上,20世纪90年代发展了另一种数据:
面板数据:
面板数据:
定义定义:
N个不同对象在一系列按时间序列排列的观测点上所得到的数据,将时间序列数据与截面将时间序列数据与截面数据相结合数据相结合,无论是在社会科学还是自然科学,面板数据都非常常见。
优点优点:
(1)可以成倍地扩大样本容量;
(2)可以估计某些未知因素对因变量的影响;(3)可区分各自变量的作用等4虽然面板数据模型将截面数据和时间序列数据结合起来,具有较强的因果推理属性,但是三者存在共同的缺陷:
即所建立的模型都是线性的,而在实际应用过程中无法完全保证变量间的线性关系,并且也难以确保数据满足前提假设条件,从而使方法的具体应用及方法适用于数据的类型均具有一定的局限性。
5函数型数据分析简介函数型数据分析简介(FunctionalDataAnalysisFunctionalDataAnalysis)为此,为此,2020世纪世纪7070年代加拿大统计学家年代加拿大统计学家RamsayRamsay首次提出将首次提出将泛函分析、拓扑学与统计学相结合的设想,提出泛函分析、拓扑学与统计学相结合的设想,提出“函数型函数型数据数据”的概念以及其数据处理方法的概念以及其数据处理方法函数型数据分析,函数型数据分析,并将之成功用于考古学家挖掘的骨块的形状分析、按时间并将之成功用于考古学家挖掘的骨块的形状分析、按时间记录的经济数据、手写师笔尖的运动轨迹、温度的变化、记录的经济数据、手写师笔尖的运动轨迹、温度的变化、人体身高变化等等。
近年来,函数型数据分析方法正处于人体身高变化等等。
近年来,函数型数据分析方法正处于发展迅猛阶段,国内也有少数将其用在股票分析、学习成发展迅猛阶段,国内也有少数将其用在股票分析、学习成绩预测等方面。
总之,函数型数据分析虽处于初级发展阶绩预测等方面。
总之,函数型数据分析虽处于初级发展阶段,但必将带来统计学一次新的变革。
段,但必将带来统计学一次新的变革。
6nn函数型数据是指随着某一函数型数据是指随着某一连续集连续集(时间、空间等)变化(时间、空间等)变化的数据,形式多种,可以是曲线、平面或者三维图像等,的数据,形式多种,可以是曲线、平面或者三维图像等,但就其本质而言其,都是由函数构成的。
但就其本质而言其,都是由函数构成的。
nn函数型数据分析基本原理把观测数据当作一个整体(函数),而不是一系列把观测数据当作一个整体(函数),而不是一系列单个离散的观测结果。
之所以这样做是因为在研究中我单个离散的观测结果。
之所以这样做是因为在研究中我们不仅关心的已得到的数据,更关心未得到的或者无法们不仅关心的已得到的数据,更关心未得到的或者无法得到的数据。
得到的数据。
前提假设:
前提假设:
前提假设:
前提假设:
产生数据的潜在过程是光滑的产生数据的潜在过程是光滑的7离散数据转换成函数型数据离散数据转换成函数型数据在实际的心理学研究中,获得的数据大多数是离散在实际的心理学研究中,获得的数据大多数是离散数据,因此需要将离散数据转换成函数型数据,此时就数据,因此需要将离散数据转换成函数型数据,此时就需要用到基函数的线性组合。
常用的基函数为需要用到基函数的线性组合。
常用的基函数为BB样条基样条基(非周期性数据)和傅里叶基(周期性数据)(非周期性数据)和傅里叶基(周期性数据)。
nn函数型数据的拟合离散数据拟合基础为:
临近的两个离散的点的潜在离散数据拟合基础为:
临近的两个离散的点的潜在产生过程是光滑的产生过程是光滑的在函数型数据分析中常用的拟合法则为非参数的拟合在函数型数据分析中常用的拟合法则为非参数的拟合法则法则粗糙惩罚法,而不是最小二乘法粗糙惩罚法,而不是最小二乘法nn另外,关于函数型数据的基本理论原理还涉及拓扑学、泛函分析等,(详细方法要专门介绍)nn函数型数据分析方法基本步骤:
(1)原始数据的收集、整理和组织
(2)将离散数据转换成函数型数据。
采用基函数的线性组合,常用的B样条基和傅立叶基(3)拟合函数型数据以及光滑化。
常用非参数拟合法则粗糙惩罚法(4)函数型数据分析方法的应用。
具体有函数型显著性检验、函数型线性模型、函数型主成份分析、函数型因素分析、函数型聚类分析、函数型主微分分析等9nn函数型数据分析的优点(11)打破了连续型数据和离散型数据长期以来)打破了连续型数据和离散型数据长期以来的分离状态,实现离散和连续的过渡的分离状态,实现离散和连续的过渡(22)可分析大批量的数据,实现从有限维数据)可分析大批量的数据,实现从有限维数据到无限维数据的转换,得到的数据信息更丰富、到无限维数据的转换,得到的数据信息更丰富、更可靠更可靠(33)很少依赖于模型构建及假设条件)很少依赖于模型构建及假设条件(44)由于假设函数都是可导的,因此可进行微)由于假设函数都是可导的,因此可进行微分分析,如:
得到位相图,实现动能与势能之间分分析,如:
得到位相图,实现动能与势能之间的转换的转换(55)将多元统计分析方法进一步延伸)将多元统计分析方法进一步延伸10应用案例应用案例1.关于ERP行为研究数据分析2.关于羽毛球运动员fMRI数据分析11nn实验目的针对以往对于负性情绪刺激处于非注意条件下的加工机制的研究得出的矛盾的结论,进一步探讨了非注意条件下负性情绪面孔自动加工的特点ERP行为研究数据
(一)(非注意条件下负性情绪面孔自动加工的时间进程)(非注意条件下负性情绪面孔自动加工的时间进程)(非注意条件下负性情绪面孔自动加工的时间进程)(非注意条件下负性情绪面孔自动加工的时间进程)12nn实验流程实验流程实验流程实验流程备注:
流程之一备注:
流程之一13nn实实实实验任务验任务验任务验任务刺激呈现时间分别为刺激呈现时间分别为90ms90ms,100ms100ms,130ms130ms,150ms150ms,200ms200ms,220ms220ms,要求同一样本不同被试分别对不同图片进行判断,并记,要求同一样本不同被试分别对不同图片进行判断,并记录反应时(录反应时(msms)(高、低负荷水平下的恐惧面孔、中性面孔、(高、低负荷水平下的恐惧面孔、中性面孔、高兴面孔)高兴面孔)nn实实实实验数据验数据验数据验数据自变量:
刺激呈现时间(连续集)自变量:
刺激呈现时间(连续集)因变量:
反应时(连续变量)因变量:
反应时(连续变量)显然,此批数据为典型的函数型数据分析(截面与时间序列相结显然,此批数据为典型的函数型数据分析(截面与时间序列相结合)合)14数据处理结果比较数据处理结果比较图图1-11-1:
传统的方差分析结果图:
传统的方差分析结果图图图1-21-2:
函数型数据分析结果图:
函数型数据分析结果图深蓝色深蓝色highfhighf蓝蓝色色highhhighh紫紫色色highnhighn黑黑色色lowflowf绿绿色色lowhlowh红红色色lownlown15nn比较结果分析,在几乎所有时间点上,两种数据比较结果分析,在几乎所有时间点上,两种数据处理方法结果一致,然而,从函数型数据分析结处理方法结果一致,然而,从函数型数据分析结果来看,果来看,170ms-175ms170ms-175ms这个时间段更应该值得关注,这个时间段更应该值得关注,但是,显然传统的方差分析结果无法得到这一结但是,显然传统的方差分析结果无法得到这一结论,而且论,而且ERPERP脑电数据验证了该发现的可靠性,这脑电数据验证了该发现的可靠性,这也充分说明了函数型数据分析方法的优越性。
也充分说明了函数型数据分析方法的优越性。
16ERP行为研究数据
(二)(情绪面孔对选择性注意时间进程的影响情绪面孔对选择性注意时间进程的影响)nn实验目的探讨探讨在情绪面孔引起注意偏向的过程中,不同在情绪面孔引起注意偏向的过程中,不同的情绪面孔对注意时程的影响是否相同呢?
的情绪面孔对注意时程的影响是否相同呢?
通过选取愤怒表情和快乐表情,利用眼动仪记通过选取愤怒表情和快乐表情,利用眼动仪记录不同情绪类别对注意过程的影响,我们假设愤录不同情绪类别对注意过程的影响,我们假设愤怒表情更容易获取最初的注意朝向,快乐表情更怒表情更容易获取最初的注意朝向,快乐表情更容易保持随后的注意投入容易保持随后的注意投入17实验设计实验设计nn被试被试nn北师大在校生北师大在校生1919名名nn平均年龄平均年龄21.9421.94岁(岁(SD=2.41SD=2.41)nn实验仪器实验仪器nnTobii1750Tobii1750眼动仪眼动仪nn眼动采样频率为眼动采样频率为50Hz50Hznn实验材料实验材料nnElkmanElkman面孔库:
快乐、愤怒、中性(每种面孔库:
快乐、愤怒、中性(每种1515张)张)nn图片大小为图片大小为12.5*2012.5*20nn共共9090个个trialstrials,每种条件,每种条件3030个个trialstrials(15*215*2)流程(Nummenmaa等,2019;Calvo和Lang,2019):
18数据结果分析数据结果分析注意朝向注意朝向方差分析结果方差分析结果图2-1横坐标为注意时间进程0-3000ms,纵坐标为注视时间的概率结果表明:
在结果表明:
在0-1000ms0-1000ms内,即注意早期阶段,内,即注意早期阶段,不同表情会对选择性注不同表情会对选择性注意产生不同的影响意产生不同的影响,而在注意后期,各种表情之间不存在显著性差异。
而在注意后期,各种表情之间不存在显著性差异。
19图2-2横坐标为注意时间进程0-1000ms,纵坐标为注意时间的概率结果表明:
结果表明:
100-300ms100-300ms,愤怒面孔会自动地获取注意朝向,愤怒面孔会自动地获取注意朝向,而在,而在300-600ms300-600ms,快,快乐面孔会获取更多的注意资源乐面孔会获取更多的注意资源,随后在,随后在600-1000ms,600-1000ms,愤怒面孔会再次愤怒面孔会再次获取注意资源获取注意资源20函数型数据分析结果拟合图图2-3横坐标为注意时间进程0-3000ms,纵坐标为注意时间的概率之和结果表明结果表明:
(11)200ms-500ms200ms-500ms:
快乐面孔获得最多的资源,相比与愤怒面孔和中性:
快乐面孔获得最多的资源,相比与愤怒面孔和中性面孔。
面孔。
(22)500-1000ms500-1000ms:
愤怒面孔再次分配的资源最多,而快乐与中性面孔:
愤怒面孔再次分配的资源最多,而快乐与中性面孔相差不显著相差不显著。
21函数型数据分析结果导数图图2-4横轴为注意时间进程0-3000ms,纵坐标为注意时间的概率的导数结果表明:
结果表明:
1000ms1000ms左右以后,三者的变化速度是相等的,而且导数左右以后,三者的变化速度是相等的,而且导数都是沿着都是沿着xx轴浮动,说明在之后,它们各自的百分比是几乎没有很大轴浮动,说明在之后,它们各自的百分比是几乎没有很大的变化的变化22从传统的方差分析结果和函数型数据分析结果可从传统的方差分析结果和函数型数据分析结果可以看出,其结果是基本一致的,即情绪性的注意模型是以看出,其结果是基本一致的,即情绪性的注意模型是随着不同的时间进程而改变,特别是体现在特定情绪内随着不同的时间进程而改变,特别是体现在特定情绪内容的差异上容的差异上。
在注意早期阶段(在注意早期阶段(0-1000ms0-1000ms)差异明显,)差异明显,100-300ms100-300ms,愤怒面孔会自动地获取注意朝向,而在,愤怒面孔会自动地获取注意朝向,而在300-600ms300-600ms,快乐面孔会获取更多的注意资源,随后在,快乐面孔会获取更多的注意资源,随后在600-1000ms,600-1000ms,愤怒面孔会再次获取注意资源,而这个结愤怒面孔会再次获取注意资源,而这个结论是预期假设中没有的。
论是预期假设中没有的。
23羽毛球运动员fMRI数据研究(函数型数据分析方法与(函数型数据分析方法与(函数型数据分析方法与(函数型数据分析方法与BootstrapBootstrapBootstrapBootstrap方法相结合)方法相结合)方法相结合)方法相结合)nnBootstrap方法的基本原理介绍BootstrapBootstrap方法是一类非参数统计方法方法是一类非参数统计方法,其通过再抽样对总体其通过再抽样对总体分布进行估计,再抽样方法将观测到的样本视为一个有限总体,分布进行估计,再抽样方法将观测到的样本视为一个有限总体,从中进行随机(再)抽样来估计总体的特征以及对抽样总体作出从中进行随机(再)抽样来估计总体的特征以及对抽样总体作出统计推断,当目标总体分布没有指定时,统计推断,当目标总体分布没有指定时,bootstrapbootstrap方法经常被方法经常被使用,特别适用于那些难以用常规方法导出的参数的标准误,偏使用,特别适用于那些难以用常规方法导出的参数的标准误,偏差、区间估计、假设检验等问题。
差、区间估计、假设检验等问题。
该方法只依赖于给定的观测信该方法只依赖于给定的观测信息,不需要其它的假设和增加新的观测息,不需要其它的假设和增加新的观测。
24nn羽毛球运动员与普通人的数据结构被试:
羽毛球运动员被试:
羽毛球运动员2121人,普通人人,普通人2020人人原始数据:
采用原始数据:
采用Matlab6.5Matlab6.5、SPM5.0SPM5.0以及以及MarsbarMarsbar对每个被试对每个被试T1T1像(即结构像)进行提取,得到每像(即结构像)进行提取,得到每个被试在个被试在116116个脑区的数据。
个脑区的数据。
25nnBootstrap模拟数据基于以上两组数据(羽毛球运动员基于以上两组数据(羽毛球运动员2111621116以及普通人以及普通人2011620116),使用随机有放回的),使用随机有放回的BootstrapBootstrap抽样方法,模拟抽样方法,模拟5050次、次、200200次分别得到次分别得到5011650116和和200116200116的两组模拟数的两组模拟数据(也可模拟据(也可模拟1010次、模拟次、模拟2020次、模拟次、模拟3030次、模拟次、模拟100100次、次、模拟模拟500500次、模拟次、模拟10001000次等)次等)nn函数型T检验目的在于探讨两组不同被试,哪些脑区存在显著性差异,目的在于探讨两组不同被试,哪些脑区存在显著性差异,那些脑区没有显著性差异那些脑区没有显著性差异(11)两组原始数据的函数型)两组原始数据的函数型TT检验。
检验。
(22)两组模拟数据的函数型)两组模拟数据的函数型TT检验(模拟检验(模拟5050次、次、200200次)次)26数据分析结果nn原始数据拟合图原始数据拟合图图图3-13-1:
羽毛球运动员原始数据拟合图:
羽毛球运动员原始数据拟合图(横轴为(横轴为1-1161-116个脑区,纵轴为原始数据值,以下类同)个脑区,纵轴为原始数据值,以下类同)图图3-23-2:
普通人原始数据拟合图:
普通人原始数据拟合图27nn函数型函数型TT检验结果检验结果原始数据:
此结果表明均不显著原始数据:
此结果表明均不显著图3-3运动员的原始数据与普通人的原始数据的函数型T检验(横轴为1-116个脑区,纵轴为T值,以下类同)备注:
红色实线为实际数据的函数型T检验结果蓝色点线为函数型T检验的比较值,在此线上方表示差异显著,在此线下方表示差异不显著蓝色虚线表示传统的T检验的比较值28模拟50次图图3-43-4羽毛球运动员和普通人模拟羽毛球运动员和普通人模拟5050次的模拟数据的函数型次的模拟数据的函数型TT检验结果检验结果结果表明:
当模拟结果表明:
当模拟结果表明:
当模拟结果表明:
当模拟50505050次时,脑区次时,脑区次时,脑区次时,脑区3333、42-5442-5442-5442-54、102-104102-104102-104102-104、113-114113-114113-114113-114存在显著性差异,这些脑区分别为小脑和额叶。
存在显著性差异,这些脑区分别为小脑和额叶。
存在显著性差异,这些脑区分别为小脑和额叶。
存在显著性差异,这些脑区分别为小脑和额叶。
29模拟200次图图3-53-5羽毛球运动员和普通人模拟羽毛球运动员和普通人模拟200200次的模拟数据的函数型次的模拟数据的函数型TT检验结果检验结果结果表明:
当模拟结果表明:
当模拟结果表明:
当模拟结果表明:
当模拟200200200200次时,脑区次时,脑区次时,脑区次时,脑区3333、42-5442-5442-5442-54、103103103103存在显著性差异,这些脑区分别为小脑和额叶存在显著性差异,这些脑区分别为小脑和额叶存在显著性差异,这些脑区分别为小脑和额叶存在显著性差异,这些脑区分别为小脑和额叶30结果分析结果分析:
随着模拟次数的增加,样本间的标随着模拟次数的增加,样本间的标准误逐渐减少,也即原本不显著的区域变得显著,准误逐渐减少,也即原本不显著的区域变得显著,同时随着模拟次数达到一定数量后,标准误的值同时随着模拟次数达到一定数量后,标准误的值会逐渐逼近,也即显著区域稳定在某些脑区。
会逐渐逼近,也即显著区域稳定在某些脑区。
31nn小结在实验心理学、发展心理学、在实验心理学、发展心理学、ERPERP以及以及fMRIfMRI等研究中,等研究中,要求大量的人力、物力、财力等,所以获得的数据量有要求大量的人力、物力、财力等,所以获得的数据量有限而且常常存在很大的误差,因此根据这些数据获得的限而且常常存在很大的误差,因此根据这些数据获得的结果常常不可靠;另外在追踪研究中也经常出现数据的结果常常不可靠;另外在追踪研究中也经常出现数据的缺失,比如数据的左缺失、右缺失或中间缺失等。
缺失,比如数据的左缺失、右缺失或中间缺失等。
BootstrapBootstrap抽样方法是基于样本数据的一种计算机模拟抽样方法是基于样本数据的一种计算机模拟技术,其无论是对点估计、置信区间估计、标准误估计、技术,其无论是对点估计、置信区间估计、标准误估计、效果量的估计等都能提供更精确的结果,另一方面,由效果量的估计等都能提供更精确的结果,另一方面,由于其模拟技术本身的优势,可用来解决当前很多研究中于其模拟技术本身的优势,可用来解决当前很多研究中常见的样本量小这一问题。
因此将函数型数据分析与常见的样本量小这一问题。
因此将函数型数据分析与BootstrapBootstrap抽样方法相结合现虽处于一个试探性的阶段,抽样方法相结合现虽处于一个试探性的阶段,但我们相信它们的发展将充实我们的科学研究,从而带但我们相信它们的发展将充实我们的科学研究,从而带来更好的研究成果。
我们憧憬函数型数据分析方法会有来更好的研究成果。
我们憧憬函数型数据分析方法会有一个更好的前景。
一个更好的前景。
32谢谢!
谢谢!
33END
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 东南大学 讲座 函数 数据 分析 引入