数据的可视化.docx
- 文档编号:8042153
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:39
- 大小:2.52MB
数据的可视化.docx
《数据的可视化.docx》由会员分享,可在线阅读,更多相关《数据的可视化.docx(39页珍藏版)》请在冰豆网上搜索。
数据的可视化
数据的可视化
最基础的数据可视化方法就是统计图。
一个好的统计图应该满足四个标准:
准确、有效、简洁、美观!
由此对应的就是统计图的实力派和偶像派。
实力派:
准确+有效
准确是统计图最基本的要求,即能够使用正确的统计图去描述不同类型的数据。
比如,对于离散型变量(性别、职业等),可以画饼图或者柱状图;对于连续型变量(年龄、工资等),可以画直方图或者箱线图;对于时间序列变量(GDP,CPI等),可以画折线图。
这就好比不同的季节要穿不同的衣服。
春天穿风衣,冬天穿羽绒服。
冬天穿比基尼,这不是好不好看的问题,而是会被冻死。
然后说有效。
比如,有两个变量,一个是性别,一个是年龄。
如果比较男性和女性的年龄,应该选择什么样的统计图呢?
先展示一组丑图(见图1、2)。
图1 男性年龄直方图轴须图及密度曲线
图2 女性年龄直方图轴须图及密度曲线
图展示的是针对男性和女性的两个直方图。
男性是绿色,女性是粉色!
但其实真的看不出明显的对比。
你可能要问,年龄不是连续型变量吗?
不是说应该画直方图吗?
分组画直方图,只能够满足准确,但却达不到有效。
下图则画的是分组箱线图,无论在平均水平还是波动程度上,都比分组直方图3更加有效地体现了不同性别的年龄对比。
图3 男性和女性年龄分组箱线图
所以,画图时,在满足准确的前提下,要多动脑筋,如何能让统计图更加有效地展示你的数据,支撑你的观点。
这好比在不同场合穿不同的衣服。
上班时穿职业装,毕业典礼上穿学士服。
跑步时穿婚纱,虽然也能跑,但能跑得快吗?
偶像派:
简洁+美观
先说简洁。
图4是对年龄这个变量作的统计图。
显然,连续型变量,画直方图。
你可能会被图中每个柱子底下的黑色线段吸引。
这叫轴须图。
但这是什么?
没人能回答。
大家想象一下,如果这件事情发生在会议、讲标、答辩等重要场合,就悲剧了!
但凡有一个人提出这种问题,人们的注意力就会集中在这个不必要的环节上。
在画图阶段,过于技术的细节,如果一句话说不清,就不要展示。
这就好比你化了个妆,眼线、唇膏都不错,最后你非得用马克笔把两条眉毛描得老粗,谁还能看到你的明媚双眸和樱桃小口啊,全都看你的眉毛了。
图4 获奖演员年龄直方图轴须图及密度曲线
再谈谈美观。
到底什么样的统计图是好看的?
客观地讲,这没有唯一正确的标准。
但是,一个美观的统计图应该同时满足准确、有效和简洁的标准。
图5是非常普通的饼图,统计的是电影《速度与激情7》中主演范·迪塞尔开的车的品牌分布。
这个饼图干干净净,标注清楚,“饼”上还贴心地印了车的logo。
图5 范·迪塞尔开的车的品牌分布
而图6属于一种树图(treemap),来自谷歌的一份报告。
描述的是在谷歌上搜索某种裙子的关键词,出现的各种质地的裙子的搜索频数分布。
这个图非常巧妙,每个格子直接用裙子的质地当作背景,格子的面积就代表这种质地的占比,可以说是赏心悦目。
图6 各种质地的搜索频数分布
图7是游戏中出现的统计图,一个非常简单的柱状图。
它的配色与游戏背景配合得天衣无缝,出现得恰到好处。
所以说,美观这事儿,考验的是化妆的整体技术,以及对于细节的把握。
淡妆浓抹总相宜,让人瞅着舒服就是你的本事。
图7 某游戏中的统计图
柱状图
柱状图是针对离散型数据(比如性别)所作的统计图。
每根柱子代表一个类别(男性或者女性),柱子的高度是这个类别的频数(男性或者女性有多少人),有时也是百分比。
一个完整的统计图包含以下要素或者注意事项:
(1)要有图标题,一般在图的下方,标题要简洁明了。
(2)报告中的统计图要有标号。
横轴和纵轴要标注清楚(横轴:
职称;纵轴:
频数)。
如果有单位的话,需要注明。
(3)图的标题、横轴、纵轴等,出现的文字要统一和准确,不要一会儿中文,一会儿英文。
写中文报告,就都标注中文。
(4)图的比例要协调,别太胖也别太瘦,别太高也别太矮。
(5)图的内容要正确、简明,避免出现不必要的标签、背景等。
(6)注意图的配色。
不要精挑细选一组非常难看的配色!
(7)画完图要有适当的评述,尤其是在报告里,这点非常重要。
比如,职称一共有三个水平(正教授、副教授和助理教授)。
有人抱怨软件,说这个软件画图不好看,那个软件配色丑。
这是典型的睡不着觉埋怨枕头,自己画图丑别把责任推到统计软件上!
例1 借款用户信用等级频数分布柱状图
图9 借款用户信用等级分布图
点评:
第一,这不是在画统计图,而是在画诗,这幅图画的是《题西林壁》中的“远近高低各不同”。
最高的柱子高2万多,最矮的柱子才60。
有两个解决办法:
一是将特别少的归为其他,然后将柱子按照从高到低的顺序排列(这个技巧很实用,能让你的柱状图美观很多);二是干脆就只画具有可比性的三个信用等级,然后文字说明一下其他等级的频数特别少。
第二,是美观问题。
人都说距离产生美,柱子之间需要留出空隙,让人喘口气。
横坐标“信用等级”也体现了自己无处安放的青春,非要跟频数60挤在一起才有安全感吗?
其实完全可以调整到横轴下方做一个安静的美男子。
第三,是图的标题。
这个图的大名叫“柱状图”,你却起个绰号叫“分布图”。
总结一下,这个柱状图,画的没有错,只是丑而已!
图10是“整容”后的版本。
图10
例2 奥斯卡获奖者出生地的频数分布柱状图
图11 获奖者地区分布频数图
点评:
第一,这幅图可以用来玩“看统计图猜成语”的游戏,这个成语就是“参差不齐”。
洋洋洒洒几十根柱子,精心排列得奇丑无比。
而且由于柱子数太多,很多标签无法显示,根本无法知道每根柱子对应哪个地区,相当于这个柱状图没有传递任何信息!
解决办法是,将频数较少的类别合并,然后将柱子按照从高到低排列。
注意:
柱状图的柱子数最好不要超过10根,否则美观程度将大打折扣。
第二,图的标题出现了两次,这是分析报告里经常看到的。
图的上方,标注了一次标题(更多时候是统计软件默认的标题,而作者没有修改或者去掉),然后图的下方又写了一遍。
正确的做法是,只在图的下方写标题。
第三,图的标题和纵轴标题。
与图9中的柱状图类似,大名叫“柱状图”,就不要再给起个“频数图”或者“分布图”这种名字了。
另外,这个图缺少纵轴标题,可以标注“频数”或者“人数”。
总结一下,这个柱状图不但很丑,而且没能有效地传递任何信息。
同样的数据,完全可以换一种作图方式,例如图12,它把每个地域获奖者的人数标注在了美国地图上,这个图基本上应该给满分(如果能加上颜色,利用颜色的深浅来反映频数的多少就更好了)。
图12 获奖者出生地分布图(美国)
例3 调查问卷中被调查者的一些基本情况
图13 问卷1—4条形统计图
点评:
这不算是一个丑图,放在这里是因为有三点需要强调:
第一,图的标题。
一般而言,若是竖着的柱子,称为柱状图;若是横着的柱子,称作条形图。
柱状图和条形图没有什么本质的区别,只是展示方式不同。
所以这里叫柱状图更加贴切。
第二,柱子的排列。
前文已提到,按照柱子从高到低排序,会使柱状图更美观。
但不是所有情况都以此为标准。
注意:
本例中,是按照类别的顺序排列的(比如年级按照从大一到硕士),这也是排列柱子的一种方式。
第三,右上角的柱状图只有两个柱子。
前文提到,柱状图的柱子数太多不美观。
这里再补充一句,柱子数太少了也不漂亮。
大家用心体会一下,画统计图跟养生特别像,传达的是一种适量的精神,信息量太多或者太少都不妥当。
对于右上角这个柱状图,其实可以不用画图,用文字写上男生多少人、女生多少人(或者占比)即可。
不是所有的数据描述都要通过画图来完成。
堆积柱状图
这里要讲的是一种更加复杂的柱状图,江湖人称“堆积柱状图”。
按照惯例,还是先做一个正确的示范。
堆积柱状图和柱状图的本质一样,都是在展示频数。
只不过简单的柱状图只涉及一个离散型变量(比如性别),而堆积柱状图涉及两个离散型变量(比如性别和职称)。
图14展示了一组样本数据中,性别和职称交叉频数的柱状图。
图14 一组堆积柱状图示例
因为有两个离散型变量,柱子可以代表任何一个变量,这样就产生了两种画法。
左上角的柱状图中,柱子代表职称;右上角的柱状图中,柱子代表性别。
也正是因为柱子只能代表一个变量的不同类别,那么另外一个变量的类别只能通过颜色(也有其他手段,颜色最为常见)进行区分。
这样就需要一个额外的标签,标注另一个变量的不同类别所对应的颜色。
按照交叉频数的展示手段,是“堆积展示”(左上角)还是“分开展示”(左下角),又会形成两种不同的画法。
于是,同一组数据,可以有四种不同的展示方法。
具体采用哪个柱状图,取决于想给读者传递的信息。
比如右上角的柱状图,比起其他三个,能够更直观地传递男性总数多于女性这一信息。
有两点值得注意:
(1)堆积柱状图也可以展示一个离散型变量和一个连续型变量,甚至两个连续型变量,前提是将连续型变量离散化,比如将年龄分成若干离散区间。
(2)采用堆积展示的手段,不太适合在柱子上标注出交叉频数,会显得混乱。
介绍了最基本的知识之后,来看看堆积柱状丑图。
例4 北京市不同空气质量(从严重污染到良,共5个水平)下首要污染物出现的频数
图15 北京市不同空气质量指数类别下首要污染物分布图
点评:
第一,这是在对读者进行色弱测试吗?
很难看出,哪段是PM2﹒5,哪段是PM10。
注意,但凡类别较多,需要画堆积柱状图的时候,应选择区分度比较强的配色,让人能识别出每段柱子都是哪个类别。
第二,这些柱子上面最多出现了4种颜色,然而标签却显示出7种物质。
看原始数据才发现(见表1),CO或者O3频数太低,根本显示不出来。
表1北京市不同空气质量指数类别下首要污染物分布单位:
天
不妨手动输入数据,去掉频数小于10的三种污染物,给出如图16所示的柱状图(虽然配色也没有美到哪里去)。
请读者试着自己去看图说话,解读这个柱状图的结果。
图16 修改之后的污染物分布柱状图
例5 获得奥斯卡提名演员不同性别的获奖频数
图17 male对ynwin分组条形图
点评:
第一,图的标题和横轴、纵轴处,中英文混用。
比如横轴标着英文的male,然后分别画了女性和男性的柱子。
纵轴更过分,ynwin是什么?
或许你会说,前文中提到ynwin代表是否获奖,但前提是有多少人会专心看你那几十页报告。
而且这里纵轴应该标注“频数”,而非是否获奖。
第二,标签挡住了柱子。
这是最让人难以容忍的。
第三,男性和女性这两组柱子非常像(蓝色柱高基本相同,粉色柱女性略高)!
作者的评论写着:
“演员获奖事件的发生与性别无关。
”看后更加一头雾水!
那么蓝色柱子画的是获过奥斯卡奖的人数,还是人次呢(报告里面没交代)?
如果是人次,这不是废话吗?
每年奥斯卡都会分别有一男一女分获最佳男女主角奖(极少数情况下会有两人同时获奖)。
如果是人数的话,会存在一个演员多次获奖的情况,蓝色柱高一样又有点太碰巧。
这个统计图以及不清晰的陈述,都给读者带来了很大的疑惑。
总而言之,这个柱状图是非常失败的展示,从图到评论,都会给报告大大扣分!
那么怎么改呢?
其实不用画图,简单陈述一下,本文统计了多少届奥斯卡奖、提名了多少人、男女获奖者又有多少人就可以了。
柱状图之妙用
除了用来展示频数,柱状图还有别的用途,本节跟大家分享两个柱状图的其他妙用。
妙用一:
展示某些常用的统计量,让你的汇报更直观
假设样本数据包含1000辆车,4种车型(A,B,C,D)。
以往画柱状图,就是展示每种车型各有多少辆车。
现在,统计了这些车在2015年全年的保养花销,想比较不同车型的平均花销,看看哪种车型的平均保养费用最高。
一般情况下,人们会分车型算出平均数,用统计表进行展示(统计表里可能还会报告其他统计量)。
作为另一种选择,也可以用柱状图进行展示,柱高就是统计量(平均保养费用)的取值,如图18所示(类别不多,可以按照车型排列柱子,也可以按柱子高度排列)。
请注意:
首先,千万不要每个统计量都展示一遍,均值、中位数、方差、标准差,一个变量画出好几个柱状图展示不同的统计量。
要展示读者最关心的,或者最能讲出故事的那些统计量,做到少而精。
其次,画这种柱状图时,非常容易犯一个错误,或者说有的报告是故意为之。
图19展示的是车型B和C的年均保养费用。
左侧的柱状图是一个正常的展示,Y轴从0开始画起。
右侧的柱状图特意隐去了Y轴。
比较左右两组柱状图可以看出,右侧的柱状图在视觉上拉大了两种车型的平均保养费用差距,因为右图的纵轴是从2开始画的。
如果读者没有格外留意,就会在视觉上产生错觉,接收错误的信息(这里可不是在教你作假,而是在教你打假)。
用某些作图软件(例如R)画图,可能不会遇到这个问题,但是如果用Excel,就有可能遇到这个问题。
图18 不同车型的平均保养花销
图19 展示Y轴(左)和隐藏Y轴(右)的柱状图比较
妙用二:
展示回归分析的系数估计结果
大家可能会困惑,教材上从来没教过用统计图展示回归结果,老师教给我们的是要规规矩矩做成表,要汇报系数估计值、t值、p值,等等。
设想下面两种场景:
第一,当你在听一个报告的时候,如果回归分析涉及8~10个自变量,给你的第一印象是什么?
看不到重点,更没心思去细看系数估计值了。
第二,若你是作报告的人,翻到回归结果那页ppt的时候,讲述起来是不是也略显吃力呢?
听众的心恐怕早就飞到九霄云外了。
做展示,跟写报告又不同,需要想尽办法用统计图去抓住听众的心。
假设一批样本数据,因变量是来年的净资产收益率,自变量包括当年净资产收益率、资产周转率等9个指标。
表2是全模型回归结果(只简略展示了部分系数估计值和p值)。
表2全模型回归结果
在报告中,回归结果往往是以表2的形式展现的,然而这种表现方式不太适合ppt汇报。
可以用柱状图展示回归系数估计值,如图20所示。
图20的展示效果有三点需要注意:
(1)用红色和黑色区分了显著和不显著的系数估计。
红色是指系数估计跟0有显著差异,而黑色是指没有。
因此解读的时候,关注红色柱子即可。
(2)柱子朝上,说明自变量和因变量的关系是正向的。
自变量取值增加的时候,因变量取值也增加。
类似地,如果柱子朝下,说明自变量和因变量的关系是负向的。
自变量取值越大,因变量取值则越小。
图20 回归系数展示
(3)若对自变量进行了标准化,那么柱子的高度,也就是系数的估计值有可比性,可以直观地区分出自变量对因变量的影响大小。
饼图
饼图是一种使用非常广泛的统计图,也是丑图的重灾区。
饼图跟柱状图一样,都是针对离散型数据的统计图。
柱状图多用于展示频数,饼图多用于展示频率(也就是比例)。
下面先展示一个规规矩矩的饼图(见图21)。
饼图展示的是在某游戏中,最近一周9个职业使用热度(就是某一职业使用次数占总次数的比例)。
法师这个职业使用次数最多;最受嫌弃的职业是战士,占比只有不到5%。
下面先看三组丑图,最后再做总结。
重点从饼的块数和标签的标注来进行点评。
图21 游戏《炉石传说》中职业分布饼图
资料来源:
炉石传说盒子(lushi﹒163﹒com)。
例6 一拍两散,貌合神离
当一个离散型变量只有两个取值的时候,无论在报告里还是在ppt里,都不建议画饼图,因为很容易画成图22的丑样。
图22 一组类别数较少的饼图示例
这些饼图之所以不好看,主要是因为变量只有两个取值,信息量太少。
那怎么办?
如果是在报告里,建议直接写一句话。
比如右上角的饼图,可以写成“样本数据中,成功的比例为51﹒6%”。
如果非要画图做ppt展示,除非你能画成图23这样(对,你没看错,是魔兽世界里的部落和联盟),否则就别画!
加入会员微信whair004
图23 一组美观的数据展示示例
例7 群雄割据,丑绝人寰
与例6中的饼图形成鲜明对比,图24展示的是变量取值特别多的一类饼图。
除非这几个类别分布比较均匀(如左上角的饼图,是魔兽玩家星座分布),否则效果就是剩下的几个饼图。
需要注意以下几点:
第一,饼的块数过多的时候,有两种改进办法:
一种是将比例不到5%的,归为一类,叫作其他。
可以在饼的下方写个注释或者在行文中提及“其他”都包括什么。
另一种是画条形图。
条形图是柱状图的兄弟,是把柱状图顺时针旋转90度。
由于平时写报告的纸张,纵向较长,所以条形图比柱状图更适合展示类别数较多的离散型变量。
第二,饼的标签单独打在旁边的时候,读者对应起来很费劲,比如右下角的饼图。
细心一点的读者还会发现:
这个饼分了9块,右侧的标签只有8个。
另外一个34﹒53%的饼对应的标签呢?
图24 一组类别数较多的饼图示例
第三,饼的标签,一般只标注百分比,很少标注频数或者两者都标注。
左下角的饼图就同时标注了频数和百分比,异常混乱。
下面针对右下角的饼图,做了改良(见图25)。
图25 一个“改良”后的饼图
例8 不多不少,丑得正好
例6和例7中的两组丑图所涉及的离散型变量取值要么太少,要么太多。
如果一个离散型变量取值不多不少,画出来的饼图就一定美美哒吗?
请看图26所展示的这组充满想象力的饼图。
图26 一组分布极不均匀的饼图示例
左上角的饼图,厚重感满满。
但比例不标注,标签也很难对应上。
右上角的饼图,小数位数保留两位即可。
左下角的饼图,标签是“1,2,3,4,5”,跟比例完美地融合在一起不分彼此。
很多小伙伴一定不服气了,数据就长成这样啊,画出来的饼图就是这么丑。
为了回答这个问题,引用一句Rhelp里面的一句话:
Note:
Piechartsareaverybadwayofdispla‐yinginformation﹒Theeyeisgoodatjudginglinearmeasuresandbadatjudgingrelativeareas﹒Abarchartordotchartisapreferablewayofdis‐playingthistypeofdata﹒翻译过来就是:
没事儿别画饼图!
那有没有改良版的饼图呢?
这里隆重推出一款整容神器:
复合饼图!
中心思想是把占比特别小的区块用另外一个饼图放大出来。
右上角的饼图整容之后如图27所示。
你肯定想不到,这是用Excel画的。
图27 一个复合饼图示例
最后,进行总结。
第一,饼的块数。
这是经常碰到的问题,一块饼到底多少个人吃才合适呢?
块数少了,每个人都容易吃撑;块数多了,大家都吃不饱。
结论是:
不多不少。
第二,饼的标签。
一个规规矩矩的做法是在饼的旁边对应着标注类别+比例。
还有一种常见的做法是只在饼上标注比例,在旁边额外标注相应的类别。
然而,第二种做法不是那么容易对应上,所以还是推荐第一种标注方法。
第三,饼的配色。
精挑细选的难看配色比比皆是。
R里面有四个常用的配色:
heat﹒colors,terrain﹒colors,cm﹒colors以及rainbow。
大家可以尝试一下,然后量力而行。
用力过猛的后果很严重!
注意:
面积大的区块用浅色,面积小的区块用深色。
直方图
直方图是针对连续型变量所作的统计图。
笔者随机生成了1000个来
自标准正态分布的随机数,画了一组直方图(见图28)。
图28 一组直方图示例
直方图的横轴是实数轴,被分成了许多连续的区间。
这些区间,可以是等距的,也可以是不等距的;可以是左开右闭的,也可以是左闭右开的。
直方图的纵轴有两种处理方式:
一是代表频数,如图28中的(a),(b),(c);二是代表密度,如图28中的(d)。
先看(a),(b),(c),这三个图的共同点是,纵轴代表频数,就是落在相应区间内的样本数。
三个图的不同点是,区间的宽度不一样,从(a)到(c),区间越来越“窄”,数据的分布形态也被展示得越来越“细”。
一般认为,(b)是看着比较舒服的。
再看(d),这个图的纵轴是概率密度(不是频率),图中红色的线是用非参数方法估计的概率密度曲线。
实际上,直方图是一种非参数方法。
(d)在学术论文中使用较多,在偏向应用的报告中,更多地使用纵轴是频数的直方图。
直方图最大的用处是观察数据分布的形态,了解数据的取值范围。
关于数据分布,主要分为对称、右偏和左偏三种。
下面来看另外一组直方图(见图29)。
图29 一组不同分布形态的直方图示例
图30 一个并不美观的直方图示例
图29中的(a),(b)和(c)分别是对称分布、右偏分布和左偏分布的形态。
对称的形态比较容易判断,但有人经常搞不清右偏和左偏。
直方图的“尾巴”在哪里,就是往哪里偏,仿佛新娘婚纱的拖尾一样。
例如,人们常说的二八定律,说的是绝大多数客户带来的收入(利润)都很低,只有少数客户做出了巨大贡献。
如果数据服从这种规律,那么直方图就应该是右偏的,因为大量的样本集中在左边(原点附近),代表低价值客户;而少数样本集中在右边,代表高价值客户。
在运用直方图时需要注意以下两点:
第一,当拿到数据之后,往往需要对连续型变量画直方图,看看分布的形态,这是正确的做法。
但不是每个直方图都要放在报告或者ppt里,因为有的数据画出来的直方图并不好看,如图30所示。
这个直方图不好看,并不怪直方图本身,而是数据分布没法画出赏心悦目的直方图。
在数据分析的初始阶段,可以做各种画图尝试。
但是在报告阶段,要选择美观的、有展现力的图表来汇报,并且讲出故事。
实在难以应付的,可以选择不画图而是用文字简要汇报。
因此,描述分析不在全面而在精辟。
第二,要看作的图是否有效传递了信息,同时想一想是否有其他展现手段,否则后果将如图31所示。
图31展示的是四类用户的微博被转发数的直方图。
四个直方图在一个图中,颜色互相覆盖,没能准确传递任何信息。
一个可行的解决办法是,做一个统计表,比较四类用户的微博被转发数的各种统计量(最值、均值、分位数、标准差等),效果会好很多。
所以,要学会用有效的手段展示数据,画图不是唯一选择,做统计表或者文字陈述也是可行的。
图31 一个信息传递无效的直方图示例
折线图
本节主要讲针对时间序列的统计图———折线图。
先看三种常见的数据类型:
横截面数据、时间序列数据和面板数据,分别如图32至图34所示。
●横截面数据是指在某一时间点上,在多个对象上采集到的数据。
比如某次狗熊会团队跑步活动中,团队成员的身高、体重,以及跑10公里的耗时。
●时间序列数据是指在一些时间点上,针对某个对象采集的数据,反映事物随时间的变化。
比如2014年3月至2016年9月,每个月给孩子测量一次体重。
图32 横截面数据
图33 时间序列数据
图34 面板数据
●面板数据是指在多个时间点上,对于同一批对象采集的数据。
比如2014年3月至2016年9月,每个月采集爸爸、妈妈和孩子的身高、体重等数值。
本节主要介绍时间序列数据。
时间序列数据的典型特征是带有时间标签,因此折线图的横轴是时间(顺序不能乱),纵轴是某一指标取值。
将每个时间点上采集到的指标取值标在图上,相邻的两个点用直线连接起来,就形成了折线图。
例9 追热剧《老九门》
图35展示的是热播剧《老九门》初映时XX搜索指数时间序列图。
从这张图上,能够明显看出“周期”规律,原因是该剧每周一和周二播出,因此周一和周二的搜索会出现一个波峰,呈现出周期规律。
图35 热剧《老九门》XX搜索指数
例10 “国民老公”张继科
里约奥运会结束之后,迷妹们忙得不知道选谁当“老公”好。
图36是当时新晋“国民老公”张继科的XX搜索指数时间序列图。
与图35不同的是,这张图没有明显的周期规律,而是出现了两个非常明显的“波峰”。
当时正值奥运会,所以张继科的搜索量突增。
图36 张继科XX搜索指数
由例9和例10可以看出折线图的三大特点:
第一,看趋势。
指标随着时间的变化,呈现递增、递减还是持平的趋势。
第二,看周期。
指标的取值是否呈现一定的周期规律(例如《老九门》的搜索指数)。
第三,看突发事件。
指标的取值是否因为某个事件的发生,出现波峰或者波谷(例如张继科的搜索指数)。
另外,折线图也可以用来对比多个指标的变化,也就是一张图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 可视化