数据可视化之美
简介
本文是《数据可视化之美》的阅读笔记,解构并重组了其原本的组织形式,剔除了部分具体的可视化案例(如词云、纽约地铁、美国民航以及本书后期的大量具体案例)。目的是从中分析和总结一些可视化设计的原则和方法论,以指导未来的可视化设计和开发。
《数据可视化之美》主要讲述了可视化的一些设计准则,如何通过数据可视化来讲述故事,以及一个可视化项目的执行流程,并通过具体案例了解可视化探索的过程和一些有趣的发现。
其中,大多数信息可视化的原始驱动力在于对数据的探索和描述,推动其发展的主要是一些出版机构(如《纽约时报》、《连线》)。可视分析的推动者多为非营利组织或学术组织,而在一些科学可视化和可视化软件中则可以看到商业组织的身影。
何为美的关键因素
新颖
风格鲜明
一种全新的观察数据的方式
充实
可视化提供了获取信息的途径
传递的信息和传递信息的能力是其中的重要因素
通俗地说,就是要言之有物。
高效
一图胜千言
要提高信息密度
要突出有效信息,降低获取信息的成本。
美感
基础的图形语言要过关
坐标轴、布局、形状、色彩等。
经典
学习
元素周期表
通过元素的编排解释元素之间的相互关系何周期性变化的物理属性。
根据空白 能够精准的预测尚未发现的元素
地铁图
把45度和90度的电路布局带到地铁图的绘制中。
凸显了最相关信息 剔除了不相关信息 使得相关的数据可以更容易被访问到
实践
纽约时报-美国大选地图
不关心具体的地理准确性。
保留相对位置 使用选票数代替面积
故事/叙事
问题 + 数据 + 场景
问题
一个有趣的问题是一个故事的开始
用于引导进入某个主题或场景
数据
场景
创建有效可视化的步骤
1. 制定问题
初级问题(数据描述):where when how much how often(何地、何时、多少、频率)。
高级问题(数据分析):why(原因)。
2. 收集数据
令人羡慕的数据集
data.gov
美国人口普查局
美国劳动统计局
纽约时报API
我们的数据集
//TODO
3. 应用可视化展示方式
尺寸
色彩
空间位置
时间变化
网络
色彩
为什么使用颜色
相比于传统印刷媒介,显示器的空间更小,但色阶范围更广。
颜色作为重要的视觉通道相比符号更容易被快速感知。
如何使用
亮度映射密度
连续的颜色映射变化的数据(热力图)
对色彩的三维通道(rgb)进行三维编码
实际很困难
- 色盲人群
- 对不同颜色的感知并不相同
社会模式的挖掘与可视化(可视分析)
数据挖掘和数据可视化密不可分
在数据中挖掘复杂的模式并对他进行可视化,可以更加高效的利用计算机的计算能力和人类的思维能力。能够催生出更高效复杂的数据处理和模式识别。
美国参议院社交图可视化(图可视化)
可视化设计
- 用节点代表议员
- 颜色通道编码党派
- 用链接代表 对议题投票相同
收集数据
GovTrack
数据整理
计算投票的亲和性矩阵 用于计算对议题的投票结果相同数据
基于GraphViz制作图可视化
讲故事
以图加说明的形式讲了 参议院结构的变化
事后总结
好看的原因
选择议员之间的网络连接(图可视化)作为可视化框架是正确的决策
讲清楚了一个故事(参议院中政党的地位变化、各党派的组成结构)
一些特殊的案例可以引人思考
不好看的原因
印刷媒介的限制:没有交互效果,在时间维度上没法对议员的名称和ID有效编码
力学图的限制:布局的不稳定 不太容易满足左民主右共和的期望
鸟瞰图(高维可视化/大数据可视化)
信息检索的两种方式
搜索
百度、Google
发现
Netfix、Amazon
共同点
引擎背后的支撑系统是复杂的,系统提供的结果以来系统用户的集体行为。
借助可视化技术为系统的动态特性提供宏观视角
yellowPages.com
定义相似性
两次不同的查询中点击了相同分类的企业则这两个查询是相似的
可视化设计
图布局
节点代表查询
节点的大小代表查询的次数
相似性代表 节点之前的连接强度
可视化结果
优点:
- 可以很方便的展示出不同查询的相关性,例如不论是搜索药店还是酒店 往往会点击相同的企业。由此在打印版的电话簿中这两类企业的分类可以尽量靠近。
缺点:
- 理解性差 高级图表普遍具有一定的理解成本 比如力引导、桑基图。
- 不支持精确比较: 可以定性的分析事物之间的关系、但无法定量的解释。
- 高维可视化的通病: 多维的数据集在二维平面做呈现容易丢失信息
Netfix奖
数据集
1亿用户对17700部电影的评价数据集
定义相似性
如果同一用户对两部不同的电影评价都很高,则相似,都很低也相似。
稀疏数据集的困境
无法准确预测
维基百科可视化
起始
起始于一个问题(为什么维基百科可以工作(对开放编辑模式的怀疑,为什么没有被污染、破坏性更新
对文章编辑历史进行可视化
用颜色编码不同的作者(基于作者ID的哈希值)。
允许查看者查看文档的哪些部分是由哪个人添加或编辑的。这使得跟踪更改、识别编辑行为模式以及理解文档创建的协作动态变得更加容易。
对最初问题的回答
对最初问题的回答
没有看到破坏性行为的原因并不是这种行为不存在,而是它们往往很快从公众视野中消失。
把并行集发展成有意义的项目
学术程序往往服务于论文发表,但程序本身通常不会随论文一起发布。这导致这类程序的可扩展性在理论上是可能的,但实际上很少能实现。学者和研究员相比于优化现有程序,更倾向于开启新的项目。
小结探讨了并行集(Parallel Sets)的程序封装和软件化的过程。在工业界,程序的可维护性是最基本的要求,这里不再展开。
动画可视化
动画原则
动画帧之间变化少时容易追踪,大量变化时理解就会变的困难。
观众难以对超过4个或5个的独立运动对象进行追踪,他们会放弃追踪所有转而只追踪几个物体,把其他的当成噪声看待。
科学可视化中的动画
科学可视化中更多的关注动画,他们通常研究动态过程,比如大风吹过机翼、飓风席卷地图、血液沿着静脉流动。
信息可视化通常致力于抽象数据的空间。
动画的负面效应
动画在传授知识方面效果并不理想,被动地观看动画并不比其他教学方式效果好。
这里举了“算法可视化-排序”的例子。可视化本身并不能很好地帮助学生理解算法,相反,在实现代码、向学生提问以及通过可视化回答问题的过程中,更能帮助学生理解。
动画进行探索
- 效率低:用户想要快进和后退,会返回播放动画
- 准确率低:观看静态可视化的用户回答往往更准确
- 吸引力更强:用户通常更希望接触动画,认为它比其他方式更令人愉快和兴奋
- 更适合展示数据而非探索数据:从数据集中清除脏数据、删除离群点、选择和支持自己想要表达的核心数据,引导观众观看数据
探索与展示的区别
探索
特征
- 存在意料之外的数据
- 可能存在脏数据
- 数据可能会变的难以预测
- 数据观察者控制如何交互
目标/过程
- 可以一次性分析多个维度
- 多次更改映射关系
- 寻找趋势和漏洞
展示
特征
- 展示者对数据非常了解
- 数据已经清洗过
- 观看是被动的
目标/过程
- 为了推出某个观点,只展示较少的维度
- 清晰的逐个说明维度
- 突出关键点
- 把各点组织起来,说明趋势和运动
动画的分类
- 改变视图:对图片进行放大和缩小、例如地图或大型数据空间
- 在图上改变绘画表面:改变地图比例尺或地图的投影方式
- 过滤数据
- 重新排序
- 改变展示方式: 条形图改折线图/改布局/颜色等
- 改数据
动画原则
- 分段展示: 一次转化太多会转移注意力 每次只改变一件事
- 兼容性改变:动画造成困扰的可视化通常是因为用户难以追踪变化,动画过程中不要破坏原有布局,也不要新增或删除原有的数据维度
- 必要的移动:避免不必要或无意义的移动,只对变化进行动画展示