编辑 III:我发现了一个非常华丽的多变量定量数据可视化示例,不得不添加它。您可以在“Edit III(诺贝尔奖获得者)”标题下找到它。
编辑二:有一点误解,我进行了编辑以试图澄清我如何解释数据的预期用途。我已经替换了两张图片并添加了一个部分“你想要薯条吗?”
图形揭示数据。
爱德华·塔夫特:
混乱和混乱是设计的失败,而不是信息的属性。杂乱需要设计解决方案,而不是减少内容。很多时候,细节越强烈,就越清晰和理解,因为意义和推理是无情的上下文。少就是无聊。
我们为什么要可视化数据?
- 思考的工具
- 显示强烈观看的结果
- 了解问题,做出决定
- 显示比较,显示因果关系
- 提供相信的理由
如何?
- 显示数据
- 引导观众思考内容而不是方法论、图形设计、图形制作技术或其他东西
- 避免扭曲数据必须说明的内容
- 在一个小空间里呈现许多数字
- 使大型数据集连贯
- 鼓励眼睛比较不同的数据
- 从广泛的概述到精细的结构,以多个详细级别显示数据。
- 服务于一个相当明确的目的:描述、探索、制表或装饰。
- 与数据集的统计和语言描述紧密结合。
几个定义:
数据:
通常被认为是“在数据库中排序的东西”。这当然可以是数字、图像、声音、视频等。数据是可收集的,通常是定量的。最原始的形式很难消化;只是数字墙。你懂的; 矩阵。一般来说,对于我们没有的所有东西,我们没有由零组成的海量数据库,即使有时我们没有的东西是最能提供信息的东西。因此,要查看我们没有的东西,我们需要可视化我们拥有的东西。
信息:
是您可以从数据中提取的内容。通过以某种方式显示数据,我们可以收集信息。我经常使用的一个例子是,如果我给你一个世界国家的列表并告诉你缺少两个,那么你就不太可能根据该列表找到它们。但是,如果我通过在地图上为我拥有的所有国家着色来显示这一点,你会立即看到我省略了中非共和国和新喀里多尼亚。这是“减少噪音”并以最有效的方式讲述故事。
信息图表和数据可视化:
我不愿称您为示例信息图表。我知道这通常被视为数据可视化、信息设计或信息架构的同义词,但我不同意。对我而言,信息图表是一系列图表、图表和插图,其中很可能包含一堆关于如何读取数据的有偏见的陈述。它不太客观,更容易跳过不符合创建者“兴趣”的数据:您被引导到某人预定义的结论。它们具有娱乐价值,而且它们经常大量使用插图,从而分散了数据的一些注意力。这很好,但我认为我们应该有所区别。
例子
大数据:
请记住,大数据与复杂数据不同。很多数据可能只是很多相同,例如这个 LinkedIn 地图:核心数据是相同的,但有过滤器(通过标记)。有两个变量:地理和某种将人们定义为职业/兴趣/关系的标签。疯狂的数据量;但只有两个变量。
多变量:
这是数据的多变量可视化示例。这是查尔斯·米纳德 1869 年的图表,显示了拿破仑 1812 年俄罗斯战役军队中的人数、他们的行动以及他们在返回路径上遇到的温度。
大版本在这里。
破解密码需要一点时间,但是当你这样做时,它是非常棒的。涵盖的变量有:
- 军队规模(生/死人数)
- 地理位置
- 方向(东-西)
- 温度
- 时间(日期)
- 因果关系(死于战斗和寒冷)
在一张简单的双色地图中,这是一个惊人的信息量。地理部分被程式化以给其他变量留出空间,但我们没有问题得到它。
这是一个更棘手的问题。如果您熟悉基本的进化可视化、分支图、系统发育和生物地理学原理,这将更容易阅读。请记住,它是为熟悉这一点的人制作的,因此它是一张专业的科学图表。它显示了以下内容:来自南美洲的毒蛙谱系的系统地理图像。左边的地图显示了随着时间变化的主要生物地理区域,右边的图像显示了青蛙血统在其生物地理起源的背景下。(Santos JC、Coloma LA、Summers K、Caldwell JP、Ree R 等人。[CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)],来自 Wikimedia Commons)。当您“破解代码”时,它会提供大量、惊人的信息。
小倍数,迷你图:
这一点我怎么强调都不为过:永远不要低估重复信息的价值,或者将其分成不同的相同可视化。只要将一张图与另一张图进行比较相当容易,就可以了。我们是寻找模式的机器。这通常被称为小倍数。快速分析这些图像几乎没有问题,将所有内容塞进一张大图通常是没有意义的,而十个小图效果会更好:
另一个:
还有一个使用不同但重复的图形:
Sparklines是 Edward Tufte 创造的一个术语,也发展成为一个
功能齐全、完全可定制的 JavaScript 库。它们基本上是可以插入文本中的微小图表,作为文本的一部分,而不是作为“外部”对象。这是默认的样子:
编辑 III(诺贝尔奖获得者)
我只需要添加我发现的这个数据可视化,它简直太好了:它展示了诺贝尔奖获得者。什么大学,什么教师,学科,年份,年龄,家乡,是否共享,学位水平。确实是美丽的证据。这些都是可以量化的数据。更多在这里。
您的数据
@Javi 提出的所有问题都非常重要。
您要做的是创建一个用于思考的可视化工具。为此,您必须提取最佳质量的信噪比。您正在努力解决的是如何将具有不同变量的数据关联到信息中。这里有一个问题:什么需要大致正确,什么需要完全正确?目的是什么?
我将假设您希望在没有太大偏差的情况下显示数据:如果存在任何相关性,您希望读者自己找到相关性。你的目的不是告诉人们汉堡对他们有害,或者女性吃的汉堡比男性少,而是让他们“看到”它,如果数据包含的话(想象这三个人是一个家庭。那会稍微改变一下我们对整个汉堡吃图的看法)。
您的数据集非常小,您可以简单地将其全部放在一个表中,就可以了。但当然这是关于一般想法:
一个小细节:时间 (年龄)往往是我们从左到右(时间线)视为水平的东西。给上下颠倒的东西加重,所以切换你的 x - y 是个好主意。
1. 什么是独特的、固定的实体?
2.什么是(eh..)变量?
- 重量(公斤)
- 年龄(岁)
- 汉堡数量(整数)
- 汉堡类型(整数)
注意:您的数据完全由单位组成。可数的,可量化的,每个都在一个单独的心理尺度上。公斤,年龄,体重和数字。在数据库中,他们的名字是关键。当您开始进行时空可视化时,它会变得非常令人头疼。想象一下,您应该添加出生地、当前住所等。
这里唯一具有相关性的两个是汉堡的数量以及它是否是一个组合。所有其他变量都是独立的,只有一个是固定的(名称)。在某些时候,对于大型数据集,即使是名字也会变得无趣,并且会被人口统计、年龄、性别等所取代。
使用这个小数据集,您可以在一张图中得到所有信息,例如:
或者您可以更改轴和名称气泡内容:
个人说明:我认为这是两者中更好的,因为 x 和 y 包含人类的“物理”属性。这里气泡中的变量是汉堡的数量。
除了图表之外,您还可以添加饼图,甚至只有饼图。就我个人而言,正如提到的小倍数一样,我会两者兼而有之:
你想用那个炸薯条吗?
我的假设是,我们还想知道汉堡与膳食的比例。每顿饭都包含一个汉堡。并非所有餐点都是组合餐。
- 我们是否只想知道一个人是否有时会吃组合餐?
- 或者我们想知道有多少汉堡餐也是组合餐?
如果为 1.,则应用到名称/密钥/id 的布尔值就可以了。
简有时吃comomeals?真假。
如果是 2.,我们可以对每餐应用一个布尔值:
1 个芝士汉堡,commeal=true
1 个芝士汉堡,commeal=true
1 个芝士汉堡,commeal=false
1 个芝士汉堡,commeal=false
1 个芝士汉堡,commeal=false
1 个芝士汉堡,commeal=false
1 个芝士汉堡,commeal=false
1 个牛肉汉堡,comomeal=true
1 个牛肉汉堡,comomeal=true
1 个牛肉汉堡,comomeal=false
这非常乏味,因此我们可以将其分解为:
简吃了 10 个汉堡。其中,三个是组合(“你想要薯条吗?”)。
其中一种组合是牛肉汉堡菜单。
其中两个组合是芝士汉堡菜单。
其余的是单汉堡。5块奶酪,2块牛肉。
这个饼图试图将其形象化。我在这个版本中保留了饼片以使其更清晰。关于这一点的事情是,开始应用大型数据集和 %:
但我认为最好的方法是重新思考。
另一种看待它的方式,就是做起来真的很简单。在这里更容易看到哪些年龄组、哪些体重组以及您没有“拥有”的所有数据可以告诉我们。您拥有的数据与空间无关,它只是单位(公斤、年、数字+键/ID/名称):
(编辑:我脸上的鸡蛋:我用更正确的图像替换了这些图像,至于“所有餐点都是汉堡,并非所有餐点都是组合”)
这将很容易与更多人一起扩展:
或者,更好的是,如果您比较 10、20 和 30 岁的年龄组,您可以制作一个非常简单易读的统计可视化:
..而且要尽可能清楚;这是这种思维方式的一个例子。这张图表显示了泰坦尼克号的幸存者、船员、班级、男性、女性的比例。
会有很多其他的解决方案,这些只是一些想法。
我可以继续说下去,但现在我已经筋疲力尽了,可能其他人也筋疲力尽。
玩的工具:
格菲
Gapminder看看
Hans Rosling 的这个惊人的 TED 演讲——爱那个人
谷歌图表
松维斯
拉斐尔
麻省理工学院展览(以前称为 Similie)
d3
海图
进一步阅读:
PJ小野; 为硬抗
爱德华·塔夫特:美丽的证据
Edward Tufte:构想信息
Edward Tufte:定量信息的可视化展示
视觉解释:图像和数量、证据和叙述
男, Alan., 2007 说明理论和语境视角 瑞士洛桑;纽约,纽约:AVA 学院
Isles, C. 和 Roberts, R.,1997 年。在可见光下,艺术、科学和日常生活中的摄影和分类,牛津现代艺术博物馆。
Card, SK, Mackinlay, J. & Shneiderman, B. eds.,1999 年。信息可视化阅读:使用视觉思考第一版,Morgan Kaufmann。
Grafton, A. 和 Rosenberg, D.,2010 年。《时间制图:时间线的历史》,普林斯顿建筑出版社。
Lima, M.,2011。视觉复杂性:信息的映射模式,普林斯顿建筑出版社。
Bounford, T.,2000 年。数字图表:如何有效地设计和呈现统计信息,第 0 版,Watson-Guptill。
Steele, J. 和 Iliinsky, N. eds.,2010 年。美丽的可视化:通过专家的眼睛观察数据,第 1 版,O'Reilly Media。
Gleick, J.,2011 年。信息:历史、理论、洪水、万神殿