TL;DR:线性趋势对(最有可能)非虚假相关的时间序列之间的相关性有何影响?
我目前正在尝试重建/交叉验证我公司的一位承包商提供的分析。
数据基于传感器数据的时间序列(大约 350 万个时间戳)。目标是找到与一个特定信号具有最高相关性的信号。
尽管我不是数据科学专家,但我能够重现他们的数据清理(删除零方差的列,在较小的间隙上线性插值,删除包含 NaN 值的剩余列)。但在那之后,我不确定我是否可以证实他们的发现。
似乎他们做了一个简单的皮尔逊相关性
corr = df.corrwith(df['DesiredSignal'])
然而,从数据来看,信号似乎肯定是趋势性的。
然后当我应用一个去趋势函数时
from scipy import signal
df_d = signal.detrend(df[column])
df_n = pd.DataFrame(data=df_d)
并将 corrwith-function 应用于这个新的数据框,我得到了完全不同的结果(例如,大量的高度负相关)。
我现在的问题是:我可以相信承包商的调查结果,还是因为不考虑趋势对相关性的影响而使它们无效,还是我完全错了?