如何可视化基因发现应用程序的数据组合?

平面设计 数据可视化 图表
2022-02-22 21:31:27

我应该使用哪种可视化/图表来显示您可以从一组项目中选择的所有方式?(即,可能组合的数量)

具体来说,我展示了来自两只动物的潜在后代,其中每个父母可能拥有一定数量的基因,并且后代继承了每种类型的 0、1 或两个父母基因。这些基因有有趣的名字(例如,火),有时这些基因的组合有自己的名字(火+粉彩=萤火虫),但这不是重点。

这是一个简单的示例,显示来自父母的 2 个和 2 个基因(共享 1 个),这有 2^2 = 16 种可能性。

在此处输入图像描述

当前的 UI(下图)显示了可能性列表,但没有直观地传达大小(在这种情况下,每个可能性都是 1/16,但在许多情况下,一些可能性是 2/16 或 4/16)。换句话说,“图形”没有任何东西可以直观地向用户展示每个结果的可能性有多大。其次,如果具有共同性(即包含相同基因)的结果可以在视觉上相关,那就太好了。

我的想法类似于菱形图或分层网络,其中顶部是选择所有基因的结果,在其下方是一排具有 N-1 的节点,依此类推,直到底部一行选择了 0。边缘将连接层之间的节点与共享基因。节点的大小可以指示概率。类似这张图的东西(但忽略数据)。

在此处输入图像描述

我知道Punnett Squares,但我不确定它是否最适合这种顺序的组合(因为它不组合等效结果)。

更新

结果的数量取决于父母结合了多少基因(2^N)。我预计大多数时候每个父母都有 1-4 个基因,所以总共不超过 7 个基因,或者 2^7 = 128 种可能性。此外,如果父母之间有任何重复,则更少。例如,7 个基因中有 2 个是共享基因,这就产生了 54 种可能性。(见这个例子现场)。 所以大多数时候我认为10-50个结果。

1个回答

TL;博士?向下滚动查看示例。

这是个有趣的问题。一个非常复杂的案例,我只能真正提出一般性的想法,而不是在里面,完全知道。

很明显,您需要同时使用许多指标,以一种易于使用的方式传达数据的所有不同级别和方面。

对于这个案例,我考虑的主要指标是:

  • 颜色
  • 尺寸
  • 层次结构
  • 形状

总结一下我从问题中理解的目标:

  • 您希望直观地关联具有共同属性的结果

  • 您还需要指出每个结果的统计概率


首先,我认为您需要有意义地分离数据以使其更易于使用,特别是考虑到最多可以有 128 个结果。

要做到这一点,我认为你应该将它们分成不同类型的基因组,我可以看到有些是“纯血”,有些是“混血”,有些可能是 3 种或更多类型的混合物. 这是可用的最广泛的有意义的类别。

接下来,因为你想指出每个结果的概率/机会,我认为黄色到橙色的颜色范围(可以是任何颜色,我只是选择这个,因为它经常使用)将是一个很好的指标。

最后,因为有很多不同的类型,并且您想显示共享相同基因的类型之间的关联,我认为为“纯血”定义一个调色板可能会很好。然后,您可以使用此调色板轻松显示每个共享类型的相似之处。

在此处输入图像描述

还有其他选择,但这是基于它需要能够显着扩展和收缩而不会破坏或变得不可读的事实而设计的。

为了证明使用重复数据的不同案例的潜力:

在此处输入图像描述

单击每个图像以查看全尺寸(1000px)

我认为映射的结构将是一个很酷的第三个添加,但它也将是需要最多工作的结构,同时向您的听众传达最不容易理解的含义。我希望这有帮助。