给定一个方程的乘积图,我们可以有意义地计算求解方程的任何点,因此也可以计算出穿过这些点的线。这条线,在它的任何一点上,都是答案。
但是像“每小时/停车场的汽车数量”这样的措施呢?连接每个小时测量的点是否有意义?这不会导致我们得到错误的结果,或者至少是误导性的结果,因为我们不知道同时有多少辆车?
给定一个方程的乘积图,我们可以有意义地计算求解方程的任何点,因此也可以计算出穿过这些点的线。这条线,在它的任何一点上,都是答案。
但是像“每小时/停车场的汽车数量”这样的措施呢?连接每个小时测量的点是否有意义?这不会导致我们得到错误的结果,或者至少是误导性的结果,因为我们不知道同时有多少辆车?
连接图表中的点有多种原因。如果您只显示一类值(即,如果有一条线,则只有一条线),那么通常最好遵守连续与离散的规则。但是,当可能需要多条线时,甚至可以连接离散或分类值,以便轻松跟踪 x 轴上的模式变化。关键是要制作一个连贯的故事,如果一句话使故事更明智或更容易理解,那么就添加它。如果它减损然后删除它。
在您的情况下,每个批次的点和 x 轴上的小时数的图表我非常倾向于绘制连接每个批次的小时数的线。而且,虽然您在小时有平均值,但 x 轴值是间隔测量的并且理论上是连续的(所有连续的都可能被认为是间隔测量的),因此那里有进一步的理由。
至于酒吧,正如其他海报提到的那样。我几乎总是避开它们。即使对于通常被认为由条形填充的各种数据,一个点通常也更好。
还要考虑到,除非停车场的大小相同,否则汽车的数量会产生误导。具有固定面积和典型条形的图形意味着每个条形均等地表示空间中相同的项目填充。您只能通过批次中汽车的比例部分解决该问题。当只有一个时间段时,另一种选择是用空条指示地块的大小,然后用汽车数量填充它们。但是,当展示多个批次时,这将过于复杂。数小时内连接的填充比例折线图与每手的一条线是最好的方法。
恕我直言,首先忽略更改的确切时间的人number of cars是第一个对任何误导性结果负责的人。如果你有这些信息(即使测量有误),time它必然是一个适当的连续变量,而不是一个分组的连续变量(参见 Anderson,1984 年)。如果您真的愿意,您可以自由地将观察结果分组到hour基于 - 的箱中,此时您将承担得出任何误导性结果的责任。否则,通过保留准确的到达时间,您可以绘制您的 number of cars 时间序列在连续time准确。
无论如何,假设你坚持number of cars每hour,我同意@John,你应该画一条线来连接你的每小时观察。如果您缺乏有关每次增量更改发生时间的信息,那么除非您未能描述图表信息的限制,否则很难说您误导了任何人。同样,如果你用一个简单的条形图绘制你的每小时数据,没有一条线连接箱子,如果你不声称每小时观察之间的变化准确地发生在每小时,你并没有误导任何人,一次全部。如果有人误解(任何充分公开的统计数据或数据都可能发生),您不会误导他们,特别是如果您足够详细地描述您的数据和收集程序。这应该不难做到。
鉴于数据和图形描述的基本清晰度和彻底性,画一条线来连接你的垃圾箱应该没有缺点。连接你的垃圾箱的优点实际上是你认为的缺点:绘制这些线模拟了number of cars作为 Continuous 函数的一半体面的方程time,即使它基于离散的每小时观察。您可以使用观测值之间的直线来表示一个相当合理的假设,即变化在每个 上线性发生hour,而不是一次发生。基于这样的假设,任何读者都可以通过这个相当常识的四步过程做出一个不错的猜测,minute在给定的测量之后,下一辆车会到达或离开:hour
number of cars hourhour轴相交的位置distance从上一个观察点开始测量hour轴上该点的distance distance between observations minute在hour下一辆车到达之后。当然,人们也可以精确地估计下一辆车的到达时间,而且你不能通过不提供线来阻止读者这样做——画线只是五个步骤中的第一步。因此,如果有人真的想知道在此期间有多少辆车......好吧,他们不能,因为信息不可用,但他们可以估计。如果您为他们取消流程,我想他们会感激不尽。
用简单的直线为你的读者做这件事只意味着你对每小时观察之间线性发生变化的假设感到满意,或者更贬义地说,你对这个假设的任何不准确性不感兴趣。不准确不难想象。首先,变化必然以 的非线性、零膨胀函数的形式发生time。它是非线性的,因为更改事件是三元的:要么汽车到达,要么离开,或者两者都没有——汽车不以分数增量到达或离开。它是零膨胀的,因为大多数时刻都不会看到汽车到达或离开。您可以通过将这条线视为描述probability汽车将在任何给定时刻到达或离开以达到最接近的整数来解决此问题。
每小时观测之间的直线背后的假设仍然存在另一个不准确之处。您可能期望变化率(probability如上所述)随着时间的推移比您在点之间单独绘制的直线所暗示的变化更加平滑。用更数学的术语来说,您可能希望number of cars( hour) 函数的导数在 s 上是连续hour的。您可以通过将多项式函数拟合到您的数据来做到这一点,但如果您的目的是预测性的,请注意过拟合.
线条优于直方图样式条的另一个优点(即,hour...的相邻值没有中间间距,更不用说带有彼此不“接触”的条的图表了)来自您的多lot变量变量。您可以将每个批次的单独时间序列叠加在同一图表上以方便比较,这将帮助您了解您的lot变量是否有趣。这是一个包含一些虚构数据的演示:
向麦考恩致敬!
我什至不打算弄清楚如何用条形连贯地做到这一点。我将把它留给@ChristianStade-Schuldt ;) 公平地说,不按照他的建议连接这些点更容易,但添加线条有助于消除与独立时间序列相对应的点的歧义。最后,它仍然会有点主观,所以你自己判断:

无论如何,我发现自己在脑海中画线。顺便说一句,如果您觉得第一个图中的线条会影响精确点的视觉效果,请不要忘记您始终可以增加点的大小、更改它们的形状或在单独的表格中以数字形式显示它们的值.
参考
安德森,JA (1984)。回归和有序分类变量。皇家统计学会杂志 B,46,1-30。
实线表示连续体。如果应该绘制平均值,我会考虑使用条形图或阶梯图。也可以绘制单个点,当涉及平均值时,您可以根据需要添加标准偏差信息。
我不会连接这些点,因为它们是离散值。根据数据点的数量,您可以使用柱形图/条形图或仅使用点。