0%

数据可视化之美

数据可视化之美

简介

本文是《数据可视化之美》的阅读笔记,解构并重组了其原本的组织形式,剔除了部分具体的可视化案例(如词云、纽约地铁、美国民航以及本书后期的大量具体案例)。目的是从中分析和总结一些可视化设计的原则和方法论,以指导未来的可视化设计和开发。

《数据可视化之美》主要讲述了可视化的一些设计准则,如何通过数据可视化来讲述故事,以及一个可视化项目的执行流程,并通过具体案例了解可视化探索的过程和一些有趣的发现。

其中,大多数信息可视化的原始驱动力在于对数据的探索和描述,推动其发展的主要是一些出版机构(如《纽约时报》、《连线》)。可视分析的推动者多为非营利组织或学术组织,而在一些科学可视化和可视化软件中则可以看到商业组织的身影。

何为美的关键因素

新颖

风格鲜明

一种全新的观察数据的方式

充实

可视化提供了获取信息的途径

传递的信息和传递信息的能力是其中的重要因素

通俗地说,就是要言之有物。

高效

一图胜千言

要提高信息密度

要突出有效信息,降低获取信息的成本。

美感

基础的图形语言要过关

坐标轴、布局、形状、色彩等。

经典

学习

元素周期表

通过元素的编排解释元素之间的相互关系何周期性变化的物理属性。

根据空白 能够精准的预测尚未发现的元素

地铁图

把45度和90度的电路布局带到地铁图的绘制中。

凸显了最相关信息 剔除了不相关信息 使得相关的数据可以更容易被访问到

实践

纽约时报-美国大选地图

不关心具体的地理准确性。

保留相对位置 使用选票数代替面积

故事/叙事

问题 + 数据 + 场景

问题

一个有趣的问题是一个故事的开始

用于引导进入某个主题或场景

数据

场景

创建有效可视化的步骤

1. 制定问题

初级问题(数据描述):where when how much how often(何地、何时、多少、频率)。

高级问题(数据分析):why(原因)。

2. 收集数据

令人羡慕的数据集

data.gov

美国人口普查局

美国劳动统计局

纽约时报API

我们的数据集

//TODO

3. 应用可视化展示方式

尺寸

色彩

空间位置

时间变化

网络

色彩

为什么使用颜色

相比于传统印刷媒介,显示器的空间更小,但色阶范围更广。

颜色作为重要的视觉通道相比符号更容易被快速感知。

如何使用

亮度映射密度

连续的颜色映射变化的数据(热力图)

对色彩的三维通道(rgb)进行三维编码

实际很困难

  1. 色盲人群
  2. 对不同颜色的感知并不相同

社会模式的挖掘与可视化(可视分析)

数据挖掘和数据可视化密不可分

在数据中挖掘复杂的模式并对他进行可视化,可以更加高效的利用计算机的计算能力和人类的思维能力。能够催生出更高效复杂的数据处理和模式识别。

美国参议院社交图可视化(图可视化)

可视化设计

  1. 用节点代表议员
  2. 颜色通道编码党派
  3. 用链接代表 对议题投票相同

收集数据

GovTrack

数据整理

计算投票的亲和性矩阵 用于计算对议题的投票结果相同数据

基于GraphViz制作图可视化

讲故事

以图加说明的形式讲了 参议院结构的变化

事后总结

好看的原因

选择议员之间的网络连接(图可视化)作为可视化框架是正确的决策

讲清楚了一个故事(参议院中政党的地位变化、各党派的组成结构)

一些特殊的案例可以引人思考

不好看的原因

印刷媒介的限制:没有交互效果,在时间维度上没法对议员的名称和ID有效编码

力学图的限制:布局的不稳定 不太容易满足左民主右共和的期望

鸟瞰图(高维可视化/大数据可视化)

信息检索的两种方式

搜索

百度、Google

发现

Netfix、Amazon

共同点

引擎背后的支撑系统是复杂的,系统提供的结果以来系统用户的集体行为。

借助可视化技术为系统的动态特性提供宏观视角

yellowPages.com

定义相似性

两次不同的查询中点击了相同分类的企业则这两个查询是相似的

可视化设计

图布局

节点代表查询

节点的大小代表查询的次数

相似性代表 节点之前的连接强度

可视化结果

优点:

  • 可以很方便的展示出不同查询的相关性,例如不论是搜索药店还是酒店 往往会点击相同的企业。由此在打印版的电话簿中这两类企业的分类可以尽量靠近。

缺点:

  • 理解性差 高级图表普遍具有一定的理解成本 比如力引导、桑基图。
  • 不支持精确比较: 可以定性的分析事物之间的关系、但无法定量的解释。
  • 高维可视化的通病: 多维的数据集在二维平面做呈现容易丢失信息

Netfix奖

数据集

1亿用户对17700部电影的评价数据集

定义相似性

如果同一用户对两部不同的电影评价都很高,则相似,都很低也相似。

稀疏数据集的困境

无法准确预测

维基百科可视化

起始

起始于一个问题(为什么维基百科可以工作(对开放编辑模式的怀疑,为什么没有被污染、破坏性更新

对文章编辑历史进行可视化

用颜色编码不同的作者(基于作者ID的哈希值)。

允许查看者查看文档的哪些部分是由哪个人添加或编辑的。这使得跟踪更改、识别编辑行为模式以及理解文档创建的协作动态变得更加容易。

img

对最初问题的回答

对最初问题的回答

没有看到破坏性行为的原因并不是这种行为不存在,而是它们往往很快从公众视野中消失。

把并行集发展成有意义的项目

学术程序往往服务于论文发表,但程序本身通常不会随论文一起发布。这导致这类程序的可扩展性在理论上是可能的,但实际上很少能实现。学者和研究员相比于优化现有程序,更倾向于开启新的项目。

小结探讨了并行集(Parallel Sets)的程序封装和软件化的过程。在工业界,程序的可维护性是最基本的要求,这里不再展开。

动画可视化

动画原则

  1. 动画帧之间变化少时容易追踪,大量变化时理解就会变的困难。

  2. 观众难以对超过4个或5个的独立运动对象进行追踪,他们会放弃追踪所有转而只追踪几个物体,把其他的当成噪声看待。

科学可视化中的动画

科学可视化中更多的关注动画,他们通常研究动态过程,比如大风吹过机翼、飓风席卷地图、血液沿着静脉流动。

信息可视化通常致力于抽象数据的空间。

动画的负面效应

动画在传授知识方面效果并不理想,被动地观看动画并不比其他教学方式效果好。

这里举了“算法可视化-排序”的例子。可视化本身并不能很好地帮助学生理解算法,相反,在实现代码、向学生提问以及通过可视化回答问题的过程中,更能帮助学生理解。

动画进行探索

  1. 效率低:用户想要快进和后退,会返回播放动画
  2. 准确率低:观看静态可视化的用户回答往往更准确
  3. 吸引力更强:用户通常更希望接触动画,认为它比其他方式更令人愉快和兴奋
  4. 更适合展示数据而非探索数据:从数据集中清除脏数据、删除离群点、选择和支持自己想要表达的核心数据,引导观众观看数据

探索与展示的区别

探索
特征
  1. 存在意料之外的数据
  2. 可能存在脏数据
  3. 数据可能会变的难以预测
  4. 数据观察者控制如何交互
目标/过程
  1. 可以一次性分析多个维度
  2. 多次更改映射关系
  3. 寻找趋势和漏洞
展示
特征
  1. 展示者对数据非常了解
  2. 数据已经清洗过
  3. 观看是被动的
目标/过程
  1. 为了推出某个观点,只展示较少的维度
  2. 清晰的逐个说明维度
  3. 突出关键点
  4. 把各点组织起来,说明趋势和运动

动画的分类

  • 改变视图:对图片进行放大和缩小、例如地图或大型数据空间
  • 在图上改变绘画表面:改变地图比例尺或地图的投影方式
  • 过滤数据
  • 重新排序
  • 改变展示方式: 条形图改折线图/改布局/颜色等
  • 改数据

动画原则

  • 分段展示: 一次转化太多会转移注意力 每次只改变一件事
  • 兼容性改变:动画造成困扰的可视化通常是因为用户难以追踪变化,动画过程中不要破坏原有布局,也不要新增或删除原有的数据维度
  • 必要的移动:避免不必要或无意义的移动,只对变化进行动画展示