在失去清晰度之前,我可以用图形表示多少变量?

平面设计 信息图形 图表 表示 图表设计 数据可视化
2022-01-07 22:14:48

让我们看看我能否正确解释这个图形经济问题。我是该领域的新手,值得一提的是,这纯粹是出于好奇,而我的例子——正如你很快就会知道的——完全是虚构的。

在我的图表失去通信质量之前,我可以用图形表示多少变量?例如,假设我的听众是周日报纸的读者。

假设我有这一套:体重(x)/年龄(y),两个人:简,10岁,30公斤;和乔,20岁,60公斤。图形表示可能是这样的:

在此处输入图像描述 在此处输入图像描述

现在,我知道我可以使用圆圈的大小添加另一个变量,所以如果我想添加简和乔每周吃多少汉堡(分别为 10 和 20)的表示,我可以有类似的东西:

在此处输入图像描述 在此处输入图像描述

我什至可以使用形状或颜色+大小来添加第四个变量,例如,如果他们吃的芝士汉堡比牛肉汉堡多(这里的限制是汉堡的类型是布尔值,只有两个可能的值),但无论如何:

在此处输入图像描述 在此处输入图像描述

这就是我认为它开始变得混乱的地方。将形状添加到组合中以表示第五个变量会冒着图表“易于理解”的风险。当我查看图表时,我的(特定)大脑只处理可能 2 或 3 个变量,仅此而已。例如,他们是吃套餐还是只吃汉堡?:

在此处输入图像描述 在此处输入图像描述

我想到了可能是第三维,但这看起来很糟糕。我可能正在以完全错误的方式考虑这个问题,并且很可能我在这里遗漏了一些我无法掌握的非常明显的东西(例如,如果尝试表示超过 3 或 4 个变量作为一种做法是错误的),但是回来我的问题:

  • 4(如果图表像我的一样简单,可能是 5 是在两轴图表中同时表示的最大变量的合理数字吗?

  • 是否有其他图表类型允许更多变量而不会失去清晰度?

  • 有没有成功代表大量变量的图表的好例子?

3个回答

编辑 III:我发现了一个非常华丽的多变量定量数据可视化示例,不得不添加它。您可以在“Edit III(诺贝尔奖获得者)”标题下找到它。

编辑二:有一点误解,我进行了编辑以试图澄清我如何解释数据的预期用途。我已经替换了两张图片并添加了一个部分“你想要薯条吗?”


图形揭示数据。

爱德华·塔夫特:

混乱和混乱是设计的失败,而不是信息的属性。杂乱需要设计解决方案,而不是减少内容。很多时候,细节越强烈,就越清晰和理解,因为意义和推理是无情的上下文。少就是无聊。

我们为什么要可视化数据?

  • 思考的工具
  • 显示强烈观看的结果
  • 了解问题,做出决定
  • 显示比较,显示因果关系
  • 提供相信的理由

如何?

  • 显示数据
  • 引导观众思考内容而不是方法论、图形设计、图形制作技术或其他东西
  • 避免扭曲数据必须说明的内容
  • 在一个小空间里呈现许多数字
  • 使大型数据集连贯
  • 鼓励眼睛比较不同的数据
  • 从广泛的概述到精细的结构,以多个详细级别显示数据。
  • 服务于一个相当明确的目的:描述、探索、制表或装饰。
  • 与数据集的统计和语言描述紧密结合。

几个定义:

数据:

通常被认为是“在数据库中排序的东西”。这当然可以是数字、图像、声音、视频等。数据是可收集的,通常是定量的。最原始的形式很难消化;只是数字墙。你懂的; 矩阵一般来说,对于我们没有的所有东西,我们没有由零组成的海量数据库即使有时我们没有的东西是最能提供信息的东西。因此,要查看我们没有的东西,我们需要可视化我们拥有的东西。

信息:

是您可以从数据中提取的内容。通过以某种方式显示数据,我们可以收集信息我经常使用的一个例子是,如果我给你一个世界国家的列表并告诉你缺少两个,那么你就不太可能根据该列表找到它们。但是,如果我通过在地图上为我拥有的所有国家着色来显示这一点,你会立即看到我省略了中非共和国和新喀里多尼亚。这是“减少噪音”并以最有效的方式讲述故事。

信息图表和数据可视化:

我不愿称您为示例信息图表。我知道这通常被视为数据可视化、信息设计或信息架构的同义词,但我不同意。对我而言,信息图表是一系列图表、图表和插图,其中很可能包含一堆关于如何读取数据的有偏见的陈述。它不太客观,更容易跳过不符合创建者“兴趣”的数据:您被引导到某人预定义的结论。它们具有娱乐价值,而且它们经常大量使用插图,从而分散了数据的一些注意力。这很好,但我认为我们应该有所区别。

例子

大数据:

请记住,大数据与复杂数据不同。很多数据可能只是很多相同,例如这个 LinkedIn 地图:核心数据是相同的,但有过滤器(通过标记)。有两个变量:地理和某种将人们定义为职业/兴趣/关系的标签。疯狂的数据量;但只有两个变量。

在此处输入图像描述

多变量:

这是数据的多变量可视化示例。这是查尔斯·米纳德 1869 年的图表,显示了拿破仑 1812 年俄罗斯战役军队中的人数、他们的行动以及他们在返回路径上遇到的温度。 大版本在这里。 在此处输入图像描述

破解密码需要一点时间,但是当你这样做时,它是非常棒的。涵盖的变量有:

  • 军队规模(生/死人数)
  • 地理位置
  • 方向(东-西)
  • 温度
  • 时间(日期)
  • 因果关系(死于战斗和寒冷)

在一张简单的双色地图中,这是一个惊人的信息量。地理部分被程式化以给其他变量留出空间,但我们没有问题得到它。

这是一个更棘手的问题。如果您熟悉基本的进化可视化、分支图、系统发育和生物地理学原理,这将更容易阅读。请记住,它是为熟悉这一点的人制作的,因此它是一张专业的科学图表。它显示了以下内容:来自南美洲的毒蛙谱系的系统地理图像。左边的地图显示了随着时间变化的主要生物地理区域,右边的图像显示了青蛙血统在其生物地理起源的背景下。(Santos JC、Coloma LA、Summers K、Caldwell JP、Ree R 等人。[CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)],来自 Wikimedia Commons)。当您“破解代码”时,它会提供大量、惊人的信息。

在此处输入图像描述

小倍数,迷你图:

这一点我怎么强调都不为过:永远不要低估重复信息的价值,或者将其分成不同的相同可视化。只要将一张图与另一张图进行比较相当容易,就可以了。我们是寻找模式的机器。这通常被称为小倍数。快速分析这些图像几乎没有问题,将所有内容塞进一张大图通常是没有意义的,而十个小图效果会更好:

在此处输入图像描述

另一个:

在此处输入图像描述

还有一个使用不同但重复的图形:

在此处输入图像描述

Sparklines是 Edward Tufte 创造的一个术语,也发展成为一个 功能齐全、完全可定制的 JavaScript 库。它们基本上是可以插入文本中的微小图表,作为文本的一部分,而不是作为“外部”对象。这是默认的样子: 在此处输入图像描述

编辑 III(诺贝尔奖获得者)

我只需要添加我发现的这个数据可视化,它简直太好了:它展示了诺贝尔奖获得者。什么大学,什么教师,学科,年份,年龄,家乡,是否共享,学位水平。确实是美丽的证据。这些都是可以量化的数据。更多在这里。

在此处输入图像描述

在此处输入图像描述

您的数据

@Javi 提出的所有问题都非常重要。

您要做的是创建一个用于思考的可视化工具。为此,您必须提取最佳质量的信噪比。您正在努力解决的是如何将具有不同变量的数据关联到信息中。这里有一个问题:什么需要大致正确,什么需要完全正确?目的是什么?

我将假设您希望在没有太大偏差的情况下显示数据:如果存在任何相关性,您希望读者自己找到相关性。你的目的不是告诉人们汉堡对他们有害,或者女性吃的汉堡比男性少,而是让他们“看到”它,如果数据包含的话(想象这三个人是一个家庭。那会稍微改变一下我们对整个汉堡吃图的看法)。

您的数据集非常小,您可以简单地将其全部放在一个表中,就可以了。但当然这是关于一般想法:

一个小细节:时间 (年龄)往往是我们从左到右(时间线)视为水平的东西。给上下颠倒的东西加重,所以切换你的 x - y 是个好主意。

1. 什么是独特的、固定的实体?

  • 名称

2.什么是(eh..)变量?

  • 重量(公斤)
  • 年龄(岁)
  • 汉堡数量(整数)
  • 汉堡类型(整数)

注意:您的数据完全由单位组成。可数的,可量化的,每个都在一个单独的心理尺度上。公斤,年龄,体重和数字。在数据库中,他们的名字是关键。当您开始进行时空可视化时,它会变得非常令人头疼。想象一下,您应该添加出生地、当前住所等。

这里唯一具有相关性的两个是汉堡的数量以及它是否是一个组合。所有其他变量都是独立的,只有一个是固定的(名称)。在某些时候,对于大型数据集,即使是名字也会变得无趣,并且会被人口统计、年龄、性别等所取代。

使用这个小数据集,您可以在一张图中得到所有信息,例如: 在此处输入图像描述

或者您可以更改轴和名称气泡内容:

个人说明:我认为这是两者中更好的,因为 x 和 y 包含人类的“物理”属性。这里气泡中的变量是汉堡的数量。

在此处输入图像描述

除了图表之外,您还可以添加饼图,甚至只有饼图。就我个人而言,正如提到的小倍数一样,我会两者兼而有之: 在此处输入图像描述

你想用那个炸薯条吗?

我的假设是,我们还想知道汉堡与膳食的比例。每顿饭都包含一个汉堡。并非所有餐点都是组合餐。

  1. 我们是否只想知道一个人是否有时会吃组合餐?
  2. 或者我们想知道有多少汉堡餐也是组合餐?

如果为 1.,则应用到名称/密钥/id 的布尔值就可以了。

简有时吃comomeals?真假。

如果是 2.,我们可以对每餐应用一个布尔值

1 个芝士汉堡,commeal=true

1 个芝士汉堡,commeal=true

1 个芝士汉堡,commeal=false

1 个芝士汉堡,commeal=false

1 个芝士汉堡,commeal=false

1 个芝士汉堡,commeal=false

1 个芝士汉堡,commeal=false

1 个牛肉汉堡,comomeal=true

1 个牛肉汉堡,comomeal=true

1 个牛肉汉堡,comomeal=false

这非常乏味,因此我们可以将其分解为:

简吃了 10 个汉堡。其中,三个是组合(“你想要薯条吗?”)。

其中一种组合是牛肉汉堡菜单。

其中两个组合是芝士汉堡菜单。

其余的是单汉堡。5块奶酪,2块牛肉。

这个饼图试图将其形象化。我在这个版本中保留了饼片以使其更清晰。关于这一点的事情是,开始应用大型数据集和 %: 在此处输入图像描述

但我认为最好的方法是重新思考。

另一种看待它的方式,就是做起来真的很简单。在这里更容易看到哪些年龄组、哪些体重组以及您没有“拥有”的所有数据可以告诉我们。您拥有的数据与空间无关,它只是单位(公斤、年、数字+键/ID/名称):

(编辑:我脸上的鸡蛋:我用更正确的图像替换了这些图像,至于“所有餐点都是汉堡,并非所有餐点都是组合”)

在此处输入图像描述 这将很容易与更多人一起扩展:

在此处输入图像描述 或者,更好的是,如果您比较 10、20 和 30 岁的年龄组,您可以制作一个非常简单易读的统计可视化:

在此处输入图像描述

..而且要尽可能清楚;这是这种思维方式的一个例子。这张图表显示了泰坦尼克号的幸存者、船员、班级、男性、女性的比例。 在此处输入图像描述

会有很多其他的解决方案,这些只是一些想法。

我可以继续说下去,但现在我已经筋疲力尽了,可能其他人也筋疲力尽。

玩的工具:

格菲

Gapminder看看 Hans Rosling 的这个惊人的 TED 演讲——爱那个人

谷歌图表

松维斯

拉斐尔

麻省理工学院展览(以前称为 Similie)

d3

海图

进一步阅读:

PJ小野; 为硬抗

爱德华·塔夫特:美丽的证据

Edward Tufte:构想信息

Edward Tufte:定量信息的可视化展示

视觉解释:图像和数量、证据和叙述

男, Alan., 2007 说明理论和语境视角 瑞士洛桑;纽约,纽约:AVA 学院

Isles, C. 和 Roberts, R.,1997 年。在可见光下,艺术、科学和日常生活中的摄影和分类,牛津现代艺术博物馆。

Card, SK, Mackinlay, J. & Shneiderman, B. eds.,1999 年。信息可视化阅读:使用视觉思考第一版,Morgan Kaufmann。

Grafton, A. 和 Rosenberg, D.,2010 年。《时间制图:时间线的历史》,普林斯顿建筑出版社。

Lima, M.,2011。视觉复杂性:信息的映射模式,普林斯顿建筑出版社。

Bounford, T.,2000 年。数字图表:如何有效地设计和呈现统计信息,第 0 版,Watson-Guptill。

Steele, J. 和 Iliinsky, N. eds.,2010 年。美丽的可视化:通过专家的眼睛观察数据,第 1 版,O'Reilly Media。

Gleick, J.,2011 年。信息:历史、理论、洪水、万神殿

我认为还有一些额外的问题可能会缩小您对向受众表示数据的关键的搜索范围。我认为它们很像将您的简历缩减为您想要的特定工作。

  1. 为什么要创建信息图。
  2. 您希望受众了解您的数据的最终目标或结果是什么。
  3. 您对您的受众了解多少以及他们如何与数据相关联。(人口年龄、性别、地理位置、体重等)
  4. 您将展示的最重要和最不重要的数据是什么以及它们之间的区别。
  5. 您将在什么媒介/上下文中显示您的数据,以最好地获得创建数据的“净”目标?例如,它是数据的数字表示还是物理的(如果你的目标受众是孩子,想想罐子里的果冻豆)。是用于办公室会议还是商业冒险?
  6. 数据是否可以一直拆分为不同的信息图,同时保持创建它的目标的完整性。

你的数据和目标应该规定你应该展示什么和不展示什么。例如,在星期二下午 1 点到 3 点之间显示人们在麦当劳点的东西的图表是多么重要,而您的整个目标只是显示人们在一般情况下点的东西的比较。即使我们有原始数据,也不需要时间变量。那不是我们的目标。

专门回答你的问题。我个人(主观)认为,当您在这样的基本图表中使用三个/4 个变量(大小、形状、颜色、位置)时,读者(我)会感到无聊/迷失,而无聊/迷失可能不是创建图表的原因。但是,它们可以非常有趣,并真正吸引观众。例如,与this相对的this我也不忽视第二个例子的重要性,因为如果我在办公室开会显示一般数据,这将是一个非常有效的信息图。这又回到了关于显示数据的媒介和背景的问题。

如果您正在寻找在数据中显示变量的方法,我建议您研究信息图表。这是Smashing Magazine 关于创建有效信息图表的一个很好的起点。请记住,其中一些可以而且是主观的。

这是一个很好的问题。真的。

辉煌的思想路线。

应该对此进行一些讨论。但我的措辞略有不同:

**

我们可以与现代说明性技术和设计交叉引用多少属性?

**

答案在于制作的三个方面:展示、设计和呈现方式……所有这些都被观众的考虑所混合和考虑。

显示器是物理的东西。具有尺寸、分辨率和色彩空间限制。

设计是无限的,但这个问题真正有趣的方面。我们如何利用现代插图技术以及我们对设计和创造力的理解来尽可能地展示最佳效果。

演示模式可以是静态的、动态的或交互式的。每个都有自己的长处和短处,并由显示的介质、类型和尺寸复合而成。

正如 Javi 正确指出的那样,但可能还不够远……这完全是主观的!-- 这是观众考虑因素的飞溅因素。或不。