如何丢弃图表中的“峰值”值?

数据挖掘 擅长
2022-03-10 05:07:15

我有这张图表

在此处输入图像描述

您可以在其中看到一些点远离曲线的“趋势”。图表代表5,000值,其中每个值对应于一天、一个月和一年的特定小时。在这种情况下,它从 01/01/18直到05/08/18(非美国格式)开始,正如您在第一个较低的峰值处看到的那样,这是因为12.00成本是20美元,但1.00 AM上涨至51美元。

我读到有些人只是删除了那些“峰值”值,但我不知道是否有更好的解决方案。这张图表显示了将近一年,但我想到了图表10多年这样的价格,所以情况可能会更糟。你知道更好的策略吗?我在想也许在计算每个人的平均成本6小时,但对我来说这感觉像是一个便宜的解决方案。

1个回答

我想说你有两种选择:

  • 汇总您的数据
  • 使用低通滤波器

聚合

长时间聚合数据并不便宜(无论这意味着什么)。这是显示长期趋势的常用方法。

看看彭博如何显示欧元兑美元的汇率。

您可以按时间段过滤,如果选择 1 天,您会看到每小时费率:

在此处输入图像描述

或者您可以按月过滤,然后查看按天汇总的费率。对他们来说,最后的费率是重要的,所以这就是你看到的价值。但是,对您而言,将取决于您的用例。您可以选择以下选项之一:均值、中值、众数、最大值、最小值、第一个、最后一个或任何其他对您有意义的选项。

在此处输入图像描述


信号处理滤波

如果您想对您的问题采取更数学的方法,您可以使用信号过滤技术来减少信号中的高频

你需要的是一个低通滤波器

如果您使用 Excel,您当然可以这样做但是,我建议您使用一些包含更易于使用的信号处理包的编程语言(如 Matlab 或 Python)来执行此操作。