数据可视化原理
几个世纪以前,科学家没有用相机在显微镜下拍摄遥远星系或微小细菌的照片。 图纸是传达观察,思想甚至理论的主要媒介。 实际上,对于科学家来说,能够绘制抽象思想和物体的能力是一项必不可少的技能(请查看William Playfair从1700年代开始的收藏)。
> A bar chart showing exports and imports of Scotland (William Playfair: public domain)
情况仍然如此。 我们无法拍摄分布变量或其相关性的照片。 相反,我们通过现代工具和技术通过图纸和插图(也称为数据可视化)进行交流。
数据集包含一个或多个变量,我们可以通过多种方式可视化每个变量及其与其他变量的交互。 选择哪种可视化取决于数据和我们要交流的信息类型。 但是,从根本上讲,它们分为四种不同的类型:
- 单个变量的分布
- 两个变量之间的关系
- 一个或多个变量的组成
- 不同类别/个人之间的比较
在本文中,我将通过插图分解这四个数据可视化的基石。
1)分布
统计和数据科学中的一个重要概念是分布。 分布通常是指结果发生的可能性。 在分配100张硬币的情况下,会有多少正面和反面? 这样的频率分布以直方图或曲线表示。
下面是游泳课中学生身高分布的示意图。 x轴显示不同的身高类别,y轴显示每个类别的学生人数。
> Frequency distribution of student heights (drawing: author)
那是频率分布。 但是还有另一种分布-更好地称为分散-可以显示变量相对于其中心趋势如何分散/分布。
色散的经典表示是箱线图。
> Decomposition of box plot to show the dispersion of values of a variable
上面的箱线图表示多年以来周六航空乘客数量的分布。 这个单一的图显示了太多的信息-周六的平均乘客数/中位数,最小和最大乘客数,异常值等等!
2)关系
树木随着年龄的增长变得越来越高。 那是身高和年龄这两个变量之间的关系。
身高=(年龄)
在另一个示例中,房屋价格取决于床位数,浴室数量,位置,平方英尺等。这是一个因变量与许多解释变量之间的关系。
价格=的(床,浴室,位置,面积)
如果仅将数据集视为数字,则无法识别这些关系。 但是实际上,借助良好的可视化,您可以无需进行复杂的统计分析。
> Relationship between age and height of a class of students
3)比较
数据可视化的第三个基石是比较。 这种视觉材料将数据集中的多个变量或单个变量内的多个类别进行比较。
我们来看看以下两个视觉效果:
> Visuals to show comparisons
左图比较条形图上两组观察值(科学家与律师)之间的变量(工资)。 右侧面板也是一个比较图-在这种情况下,是比较两个组(英国和加拿大)之间但沿时间维度的变量(GDP)。
4)组成
您听说过堆积条形图吗? 但我确定您知道饼图是什么。
这些图表的目的是以绝对数和标准化形式(例如百分比)显示一个或多个变量的组成。
构成图是当今一些有限的用例的老式可视化技术(您是否真的需要饼图来显示黄色10%和红色15%的组成?)。 但是,有时他们可以以视觉上的审美和熟悉的老式方式呈现信息。
> Composition plots: Stacked bar chart (left) and pie chart (right)
最后的话
本文的目的是讨论数据可视化的四个基石:分布,关系,比较和组合。 在学习可视化工具和技术之前,重要的是要了解可视化的目的和要传达的信息。 在以后的文章中,我将用python和R编程语言写一些特定的工具,包括matplotlib,seabon和ggplot2。 敬请关注!