书签分享收藏举报版权申诉 / 39

立即下载加入VIP,免费下载

当前位置：首页 > 解决方案 > 其它 > 数据的可视化.docx

数据的可视化.docx

文档编号：8042153
上传时间：2023-01-28
格式：DOCX
页数：39
大小：2.52MB

数据的可视化.docx

《数据的可视化.docx》由会员分享，可在线阅读，更多相关《数据的可视化.docx（39页珍藏版）》请在冰豆网上搜索。

数据的可视化.docx

数据的可视化

最基础的数据可视化方法就是统计图。

一个好的统计图应该满足四个标准：

准确、有效、简洁、美观！

由此对应的就是统计图的实力派和偶像派。

实力派：

准确＋有效

准确是统计图最基本的要求，即能够使用正确的统计图去描述不同类型的数据。

比如，对于离散型变量（性别、职业等），可以画饼图或者柱状图；对于连续型变量（年龄、工资等），可以画直方图或者箱线图；对于时间序列变量（GDP，CPI等），可以画折线图。

这就好比不同的季节要穿不同的衣服。

春天穿风衣，冬天穿羽绒服。

冬天穿比基尼，这不是好不好看的问题，而是会被冻死。

然后说有效。

比如，有两个变量，一个是性别，一个是年龄。

如果比较男性和女性的年龄，应该选择什么样的统计图呢？

先展示一组丑图（见图1、2）。

图1　男性年龄直方图轴须图及密度曲线

图2　女性年龄直方图轴须图及密度曲线

图展示的是针对男性和女性的两个直方图。

男性是绿色，女性是粉色！

但其实真的看不出明显的对比。

你可能要问，年龄不是连续型变量吗？

不是说应该画直方图吗？

分组画直方图，只能够满足准确，但却达不到有效。

下图则画的是分组箱线图，无论在平均水平还是波动程度上，都比分组直方图3更加有效地体现了不同性别的年龄对比。

图3　男性和女性年龄分组箱线图

所以，画图时，在满足准确的前提下，要多动脑筋，如何能让统计图更加有效地展示你的数据，支撑你的观点。

这好比在不同场合穿不同的衣服。

上班时穿职业装，毕业典礼上穿学士服。

跑步时穿婚纱，虽然也能跑，但能跑得快吗？

偶像派：

简洁＋美观

先说简洁。

图4是对年龄这个变量作的统计图。

显然，连续型变量，画直方图。

你可能会被图中每个柱子底下的黑色线段吸引。

这叫轴须图。

但这是什么？

没人能回答。

大家想象一下，如果这件事情发生在会议、讲标、答辩等重要场合，就悲剧了！

但凡有一个人提出这种问题，人们的注意力就会集中在这个不必要的环节上。

在画图阶段，过于技术的细节，如果一句话说不清，就不要展示。

这就好比你化了个妆，眼线、唇膏都不错，最后你非得用马克笔把两条眉毛描得老粗，谁还能看到你的明媚双眸和樱桃小口啊，全都看你的眉毛了。

图4　获奖演员年龄直方图轴须图及密度曲线

再谈谈美观。

到底什么样的统计图是好看的？

客观地讲，这没有唯一正确的标准。

但是，一个美观的统计图应该同时满足准确、有效和简洁的标准。

图5是非常普通的饼图，统计的是电影《速度与激情7》中主演范·迪塞尔开的车的品牌分布。

这个饼图干干净净，标注清楚，“饼”上还贴心地印了车的logo。

图5　范·迪塞尔开的车的品牌分布

而图6属于一种树图（treemap），来自谷歌的一份报告。

描述的是在谷歌上搜索某种裙子的关键词，出现的各种质地的裙子的搜索频数分布。

这个图非常巧妙，每个格子直接用裙子的质地当作背景，格子的面积就代表这种质地的占比，可以说是赏心悦目。

图6　各种质地的搜索频数分布

图7是游戏中出现的统计图，一个非常简单的柱状图。

它的配色与游戏背景配合得天衣无缝，出现得恰到好处。

所以说，美观这事儿，考验的是化妆的整体技术，以及对于细节的把握。

淡妆浓抹总相宜，让人瞅着舒服就是你的本事。

图7　某游戏中的统计图

柱状图

柱状图是针对离散型数据（比如性别）所作的统计图。

每根柱子代表一个类别（男性或者女性），柱子的高度是这个类别的频数（男性或者女性有多少人），有时也是百分比。

一个完整的统计图包含以下要素或者注意事项：

（1）要有图标题，一般在图的下方，标题要简洁明了。

（2）报告中的统计图要有标号。

横轴和纵轴要标注清楚（横轴：

职称；纵轴：

频数）。

如果有单位的话，需要注明。

（3）图的标题、横轴、纵轴等，出现的文字要统一和准确，不要一会儿中文，一会儿英文。

写中文报告，就都标注中文。

（4）图的比例要协调，别太胖也别太瘦，别太高也别太矮。

（5）图的内容要正确、简明，避免出现不必要的标签、背景等。

（6）注意图的配色。

不要精挑细选一组非常难看的配色！

（7）画完图要有适当的评述，尤其是在报告里，这点非常重要。

比如，职称一共有三个水平（正教授、副教授和助理教授）。

有人抱怨软件，说这个软件画图不好看，那个软件配色丑。

这是典型的睡不着觉埋怨枕头，自己画图丑别把责任推到统计软件上！

例1　借款用户信用等级频数分布柱状图

图9　借款用户信用等级分布图

点评：

第一，这不是在画统计图，而是在画诗，这幅图画的是《题西林壁》中的“远近高低各不同”。

最高的柱子高2万多，最矮的柱子才60。

有两个解决办法：

一是将特别少的归为其他，然后将柱子按照从高到低的顺序排列（这个技巧很实用，能让你的柱状图美观很多）；二是干脆就只画具有可比性的三个信用等级，然后文字说明一下其他等级的频数特别少。

第二，是美观问题。

人都说距离产生美，柱子之间需要留出空隙，让人喘口气。

横坐标“信用等级”也体现了自己无处安放的青春，非要跟频数60挤在一起才有安全感吗？

其实完全可以调整到横轴下方做一个安静的美男子。

第三，是图的标题。

这个图的大名叫“柱状图”，你却起个绰号叫“分布图”。

总结一下，这个柱状图，画的没有错，只是丑而已！

图10是“整容”后的版本。

图10

例2　奥斯卡获奖者出生地的频数分布柱状图

图11　获奖者地区分布频数图

点评：

第一，这幅图可以用来玩“看统计图猜成语”的游戏，这个成语就是“参差不齐”。

洋洋洒洒几十根柱子，精心排列得奇丑无比。

而且由于柱子数太多，很多标签无法显示，根本无法知道每根柱子对应哪个地区，相当于这个柱状图没有传递任何信息！

解决办法是，将频数较少的类别合并，然后将柱子按照从高到低排列。

注意：

柱状图的柱子数最好不要超过10根，否则美观程度将大打折扣。

第二，图的标题出现了两次，这是分析报告里经常看到的。

图的上方，标注了一次标题（更多时候是统计软件默认的标题，而作者没有修改或者去掉），然后图的下方又写了一遍。

正确的做法是，只在图的下方写标题。

第三，图的标题和纵轴标题。

与图9中的柱状图类似，大名叫“柱状图”，就不要再给起个“频数图”或者“分布图”这种名字了。

另外，这个图缺少纵轴标题，可以标注“频数”或者“人数”。

总结一下，这个柱状图不但很丑，而且没能有效地传递任何信息。

同样的数据，完全可以换一种作图方式，例如图12，它把每个地域获奖者的人数标注在了美国地图上，这个图基本上应该给满分（如果能加上颜色，利用颜色的深浅来反映频数的多少就更好了）。

图12　获奖者出生地分布图（美国）

例3　调查问卷中被调查者的一些基本情况

图13　问卷1—4条形统计图

点评：

这不算是一个丑图，放在这里是因为有三点需要强调：

第一，图的标题。

一般而言，若是竖着的柱子，称为柱状图；若是横着的柱子，称作条形图。

柱状图和条形图没有什么本质的区别，只是展示方式不同。

所以这里叫柱状图更加贴切。

第二，柱子的排列。

前文已提到，按照柱子从高到低排序，会使柱状图更美观。

但不是所有情况都以此为标准。

注意：

本例中，是按照类别的顺序排列的（比如年级按照从大一到硕士），这也是排列柱子的一种方式。

第三，右上角的柱状图只有两个柱子。

前文提到，柱状图的柱子数太多不美观。

这里再补充一句，柱子数太少了也不漂亮。

大家用心体会一下，画统计图跟养生特别像，传达的是一种适量的精神，信息量太多或者太少都不妥当。

对于右上角这个柱状图，其实可以不用画图，用文字写上男生多少人、女生多少人（或者占比）即可。

不是所有的数据描述都要通过画图来完成。

堆积柱状图

这里要讲的是一种更加复杂的柱状图，江湖人称“堆积柱状图”。

按照惯例，还是先做一个正确的示范。

堆积柱状图和柱状图的本质一样，都是在展示频数。

只不过简单的柱状图只涉及一个离散型变量（比如性别），而堆积柱状图涉及两个离散型变量（比如性别和职称）。

图14展示了一组样本数据中，性别和职称交叉频数的柱状图。

图14　一组堆积柱状图示例

因为有两个离散型变量，柱子可以代表任何一个变量，这样就产生了两种画法。

左上角的柱状图中，柱子代表职称；右上角的柱状图中，柱子代表性别。

也正是因为柱子只能代表一个变量的不同类别，那么另外一个变量的类别只能通过颜色（也有其他手段，颜色最为常见）进行区分。

这样就需要一个额外的标签，标注另一个变量的不同类别所对应的颜色。

按照交叉频数的展示手段，是“堆积展示”（左上角）还是“分开展示”（左下角），又会形成两种不同的画法。

于是，同一组数据，可以有四种不同的展示方法。

具体采用哪个柱状图，取决于想给读者传递的信息。

比如右上角的柱状图，比起其他三个，能够更直观地传递男性总数多于女性这一信息。

有两点值得注意：

（1）堆积柱状图也可以展示一个离散型变量和一个连续型变量，甚至两个连续型变量，前提是将连续型变量离散化，比如将年龄分成若干离散区间。

（2）采用堆积展示的手段，不太适合在柱子上标注出交叉频数，会显得混乱。

介绍了最基本的知识之后，来看看堆积柱状丑图。

例4　北京市不同空气质量（从严重污染到良，共5个水平）下首要污染物出现的频数

图15　北京市不同空气质量指数类别下首要污染物分布图

点评：

第一，这是在对读者进行色弱测试吗？

很难看出，哪段是PM2﹒5，哪段是PM10。

注意，但凡类别较多，需要画堆积柱状图的时候，应选择区分度比较强的配色，让人能识别出每段柱子都是哪个类别。

第二，这些柱子上面最多出现了4种颜色，然而标签却显示出7种物质。

看原始数据才发现（见表1），CO或者O3频数太低，根本显示不出来。

表1北京市不同空气质量指数类别下首要污染物分布单位：

天

不妨手动输入数据，去掉频数小于10的三种污染物，给出如图16所示的柱状图（虽然配色也没有美到哪里去）。

请读者试着自己去看图说话，解读这个柱状图的结果。

图16　修改之后的污染物分布柱状图

例5　获得奥斯卡提名演员不同性别的获奖频数

图17　male对ynwin分组条形图

点评：

第一，图的标题和横轴、纵轴处，中英文混用。

比如横轴标着英文的male，然后分别画了女性和男性的柱子。

纵轴更过分，ynwin是什么？

或许你会说，前文中提到ynwin代表是否获奖，但前提是有多少人会专心看你那几十页报告。

而且这里纵轴应该标注“频数”，而非是否获奖。

第二，标签挡住了柱子。

这是最让人难以容忍的。

第三，男性和女性这两组柱子非常像（蓝色柱高基本相同，粉色柱女性略高）！

作者的评论写着：

“演员获奖事件的发生与性别无关。

”看后更加一头雾水！

那么蓝色柱子画的是获过奥斯卡奖的人数，还是人次呢（报告里面没交代）？

如果是人次，这不是废话吗？

每年奥斯卡都会分别有一男一女分获最佳男女主角奖（极少数情况下会有两人同时获奖）。

如果是人数的话，会存在一个演员多次获奖的情况，蓝色柱高一样又有点太碰巧。

这个统计图以及不清晰的陈述，都给读者带来了很大的疑惑。

总而言之，这个柱状图是非常失败的展示，从图到评论，都会给报告大大扣分！

那么怎么改呢？

其实不用画图，简单陈述一下，本文统计了多少届奥斯卡奖、提名了多少人、男女获奖者又有多少人就可以了。

柱状图之妙用

除了用来展示频数，柱状图还有别的用途，本节跟大家分享两个柱状图的其他妙用。

妙用一：

展示某些常用的统计量，让你的汇报更直观

假设样本数据包含1000辆车，4种车型（A，B，C，D）。

以往画柱状图，就是展示每种车型各有多少辆车。

现在，统计了这些车在2015年全年的保养花销，想比较不同车型的平均花销，看看哪种车型的平均保养费用最高。

一般情况下，人们会分车型算出平均数，用统计表进行展示（统计表里可能还会报告其他统计量）。

作为另一种选择，也可以用柱状图进行展示，柱高就是统计量（平均保养费用）的取值，如图18所示（类别不多，可以按照车型排列柱子，也可以按柱子高度排列）。

请注意：

首先，千万不要每个统计量都展示一遍，均值、中位数、方差、标准差，一个变量画出好几个柱状图展示不同的统计量。

要展示读者最关心的，或者最能讲出故事的那些统计量，做到少而精。

其次，画这种柱状图时，非常容易犯一个错误，或者说有的报告是故意为之。

图19展示的是车型B和C的年均保养费用。

左侧的柱状图是一个正常的展示，Y轴从0开始画起。

右侧的柱状图特意隐去了Y轴。

比较左右两组柱状图可以看出，右侧的柱状图在视觉上拉大了两种车型的平均保养费用差距，因为右图的纵轴是从2开始画的。

如果读者没有格外留意，就会在视觉上产生错觉，接收错误的信息（这里可不是在教你作假，而是在教你打假）。

用某些作图软件（例如R）画图，可能不会遇到这个问题，但是如果用Excel，就有可能遇到这个问题。

图18　不同车型的平均保养花销

图19　展示Y轴（左）和隐藏Y轴（右）的柱状图比较

妙用二：

展示回归分析的系数估计结果

大家可能会困惑，教材上从来没教过用统计图展示回归结果，老师教给我们的是要规规矩矩做成表，要汇报系数估计值、t值、p值，等等。

设想下面两种场景：

第一，当你在听一个报告的时候，如果回归分析涉及8～10个自变量，给你的第一印象是什么？

看不到重点，更没心思去细看系数估计值了。

第二，若你是作报告的人，翻到回归结果那页ppt的时候，讲述起来是不是也略显吃力呢？

听众的心恐怕早就飞到九霄云外了。

做展示，跟写报告又不同，需要想尽办法用统计图去抓住听众的心。

假设一批样本数据，因变量是来年的净资产收益率，自变量包括当年净资产收益率、资产周转率等9个指标。

表2是全模型回归结果（只简略展示了部分系数估计值和p值）。

表2全模型回归结果

在报告中，回归结果往往是以表2的形式展现的，然而这种表现方式不太适合ppt汇报。

可以用柱状图展示回归系数估计值，如图20所示。

图20的展示效果有三点需要注意：

（1）用红色和黑色区分了显著和不显著的系数估计。

红色是指系数估计跟0有显著差异，而黑色是指没有。

因此解读的时候，关注红色柱子即可。

（2）柱子朝上，说明自变量和因变量的关系是正向的。

自变量取值增加的时候，因变量取值也增加。

类似地，如果柱子朝下，说明自变量和因变量的关系是负向的。

自变量取值越大，因变量取值则越小。

图20　回归系数展示

（3）若对自变量进行了标准化，那么柱子的高度，也就是系数的估计值有可比性，可以直观地区分出自变量对因变量的影响大小。

饼图

饼图是一种使用非常广泛的统计图，也是丑图的重灾区。

饼图跟柱状图一样，都是针对离散型数据的统计图。

柱状图多用于展示频数，饼图多用于展示频率（也就是比例）。

下面先展示一个规规矩矩的饼图（见图21）。

饼图展示的是在某游戏中，最近一周9个职业使用热度（就是某一职业使用次数占总次数的比例）。

法师这个职业使用次数最多；最受嫌弃的职业是战士，占比只有不到5%。

下面先看三组丑图，最后再做总结。

重点从饼的块数和标签的标注来进行点评。

图21　游戏《炉石传说》中职业分布饼图

资料来源：

炉石传说盒子（lushi﹒163﹒com）。

例6　一拍两散，貌合神离

当一个离散型变量只有两个取值的时候，无论在报告里还是在ppt里，都不建议画饼图，因为很容易画成图22的丑样。

图22　一组类别数较少的饼图示例

这些饼图之所以不好看，主要是因为变量只有两个取值，信息量太少。

那怎么办？

如果是在报告里，建议直接写一句话。

比如右上角的饼图，可以写成“样本数据中，成功的比例为51﹒6%”。

如果非要画图做ppt展示，除非你能画成图23这样（对，你没看错，是魔兽世界里的部落和联盟），否则就别画！

加入会员微信whair004

图23　一组美观的数据展示示例

例7　群雄割据，丑绝人寰

与例6中的饼图形成鲜明对比，图24展示的是变量取值特别多的一类饼图。

除非这几个类别分布比较均匀（如左上角的饼图，是魔兽玩家星座分布），否则效果就是剩下的几个饼图。

需要注意以下几点：

第一，饼的块数过多的时候，有两种改进办法：

一种是将比例不到5%的，归为一类，叫作其他。

可以在饼的下方写个注释或者在行文中提及“其他”都包括什么。

另一种是画条形图。

条形图是柱状图的兄弟，是把柱状图顺时针旋转90度。

由于平时写报告的纸张，纵向较长，所以条形图比柱状图更适合展示类别数较多的离散型变量。

第二，饼的标签单独打在旁边的时候，读者对应起来很费劲，比如右下角的饼图。

细心一点的读者还会发现：

这个饼分了9块，右侧的标签只有8个。

另外一个34﹒53%的饼对应的标签呢？

图24　一组类别数较多的饼图示例

第三，饼的标签，一般只标注百分比，很少标注频数或者两者都标注。

左下角的饼图就同时标注了频数和百分比，异常混乱。

下面针对右下角的饼图，做了改良（见图25）。

图25　一个“改良”后的饼图

例8　不多不少，丑得正好

例6和例7中的两组丑图所涉及的离散型变量取值要么太少，要么太多。

如果一个离散型变量取值不多不少，画出来的饼图就一定美美哒吗？

请看图26所展示的这组充满想象力的饼图。

图26　一组分布极不均匀的饼图示例

左上角的饼图，厚重感满满。

但比例不标注，标签也很难对应上。

右上角的饼图，小数位数保留两位即可。

左下角的饼图，标签是“1，2，3，4，5”，跟比例完美地融合在一起不分彼此。

很多小伙伴一定不服气了，数据就长成这样啊，画出来的饼图就是这么丑。

为了回答这个问题，引用一句Rhelp里面的一句话：

Note：

Piechartsareaverybadwayofdispla‐yinginformation﹒Theeyeisgoodatjudginglinearmeasuresandbadatjudgingrelativeareas﹒Abarchartordotchartisapreferablewayofdis‐playingthistypeofdata﹒翻译过来就是：

没事儿别画饼图！

那有没有改良版的饼图呢？

这里隆重推出一款整容神器：

复合饼图！

中心思想是把占比特别小的区块用另外一个饼图放大出来。

右上角的饼图整容之后如图27所示。

你肯定想不到，这是用Excel画的。

图27　一个复合饼图示例

最后，进行总结。

第一，饼的块数。

这是经常碰到的问题，一块饼到底多少个人吃才合适呢？

块数少了，每个人都容易吃撑；块数多了，大家都吃不饱。

结论是：

不多不少。

第二，饼的标签。

一个规规矩矩的做法是在饼的旁边对应着标注类别＋比例。

还有一种常见的做法是只在饼上标注比例，在旁边额外标注相应的类别。

然而，第二种做法不是那么容易对应上，所以还是推荐第一种标注方法。

第三，饼的配色。

精挑细选的难看配色比比皆是。

R里面有四个常用的配色：

heat﹒colors，terrain﹒colors，cm﹒colors以及rainbow。

大家可以尝试一下，然后量力而行。

用力过猛的后果很严重！

注意：

面积大的区块用浅色，面积小的区块用深色。

直方图

直方图是针对连续型变量所作的统计图。

笔者随机生成了1000个来

自标准正态分布的随机数，画了一组直方图（见图28）。

图28　一组直方图示例

直方图的横轴是实数轴，被分成了许多连续的区间。

这些区间，可以是等距的，也可以是不等距的；可以是左开右闭的，也可以是左闭右开的。

直方图的纵轴有两种处理方式：

一是代表频数，如图28中的（a），（b），（c）；二是代表密度，如图28中的（d）。

先看（a），（b），（c），这三个图的共同点是，纵轴代表频数，就是落在相应区间内的样本数。

三个图的不同点是，区间的宽度不一样，从（a）到（c），区间越来越“窄”，数据的分布形态也被展示得越来越“细”。

一般认为，（b）是看着比较舒服的。

再看（d），这个图的纵轴是概率密度（不是频率），图中红色的线是用非参数方法估计的概率密度曲线。

实际上，直方图是一种非参数方法。

（d）在学术论文中使用较多，在偏向应用的报告中，更多地使用纵轴是频数的直方图。

直方图最大的用处是观察数据分布的形态，了解数据的取值范围。

关于数据分布，主要分为对称、右偏和左偏三种。

下面来看另外一组直方图（见图29）。

图29　一组不同分布形态的直方图示例

图30　一个并不美观的直方图示例

图29中的（a），（b）和（c）分别是对称分布、右偏分布和左偏分布的形态。

对称的形态比较容易判断，但有人经常搞不清右偏和左偏。

直方图的“尾巴”在哪里，就是往哪里偏，仿佛新娘婚纱的拖尾一样。

例如，人们常说的二八定律，说的是绝大多数客户带来的收入（利润）都很低，只有少数客户做出了巨大贡献。

如果数据服从这种规律，那么直方图就应该是右偏的，因为大量的样本集中在左边（原点附近），代表低价值客户；而少数样本集中在右边，代表高价值客户。

在运用直方图时需要注意以下两点：

第一，当拿到数据之后，往往需要对连续型变量画直方图，看看分布的形态，这是正确的做法。

但不是每个直方图都要放在报告或者ppt里，因为有的数据画出来的直方图并不好看，如图30所示。

这个直方图不好看，并不怪直方图本身，而是数据分布没法画出赏心悦目的直方图。

在数据分析的初始阶段，可以做各种画图尝试。

但是在报告阶段，要选择美观的、有展现力的图表来汇报，并且讲出故事。

实在难以应付的，可以选择不画图而是用文字简要汇报。

因此，描述分析不在全面而在精辟。

第二，要看作的图是否有效传递了信息，同时想一想是否有其他展现手段，否则后果将如图31所示。

图31展示的是四类用户的微博被转发数的直方图。

四个直方图在一个图中，颜色互相覆盖，没能准确传递任何信息。

一个可行的解决办法是，做一个统计表，比较四类用户的微博被转发数的各种统计量（最值、均值、分位数、标准差等），效果会好很多。

所以，要学会用有效的手段展示数据，画图不是唯一选择，做统计表或者文字陈述也是可行的。

图31　一个信息传递无效的直方图示例

折线图

本节主要讲针对时间序列的统计图———折线图。

先看三种常见的数据类型：

横截面数据、时间序列数据和面板数据，分别如图32至图34所示。

●横截面数据是指在某一时间点上，在多个对象上采集到的数据。

比如某次狗熊会团队跑步活动中，团队成员的身高、体重，以及跑10公里的耗时。

●时间序列数据是指在一些时间点上，针对某个对象采集的数据，反映事物随时间的变化。

比如2014年3月至2016年9月，每个月给孩子测量一次体重。

图32　横截面数据

图33　时间序列数据

图34　面板数据

●面板数据是指在多个时间点上，对于同一批对象采集的数据。

比如2014年3月至2016年9月，每个月采集爸爸、妈妈和孩子的身高、体重等数值。

本节主要介绍时间序列数据。

时间序列数据的典型特征是带有时间标签，因此折线图的横轴是时间（顺序不能乱），纵轴是某一指标取值。

将每个时间点上采集到的指标取值标在图上，相邻的两个点用直线连接起来，就形成了折线图。

例9　追热剧《老九门》

图35展示的是热播剧《老九门》初映时XX搜索指数时间序列图。

从这张图上，能够明显看出“周期”规律，原因是该剧每周一和周二播出，因此周一和周二的搜索会出现一个波峰，呈现出周期规律。

图35　热剧《老九门》XX搜索指数

例10　“国民老公”张继科

里约奥运会结束之后，迷妹们忙得不知道选谁当“老公”好。

图36是当时新晋“国民老公”张继科的XX搜索指数时间序列图。

与图35不同的是，这张图没有明显的周期规律，而是出现了两个非常明显的“波峰”。

当时正值奥运会，所以张继科的搜索量突增。

图36　张继科XX搜索指数

由例9和例10可以看出折线图的三大特点：

第一，看趋势。

指标随着时间的变化，呈现递增、递减还是持平的趋势。

第二，看周期。

指标的取值是否呈现一定的周期规律（例如《老九门》的搜索指数）。

第三，看突发事件。

指标的取值是否因为某个事件的发生，出现波峰或者波谷（例如张继科的搜索指数）。

另外，折线图也可以用来对比多个指标的变化，也就是一张图

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据可视化

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据的可视化.docx
链接地址：https://www.bdocx.com/doc/8042153.html

数据的可视化.docx

热门标签