这是我在一个研究项目中遇到的问题。我想到了一种天真的方法来解决它,它依赖于许多假设,不能保证有效,并且实施起来很乏味且计算成本很高。因此,我想知道是否会有更聪明或更通用的方法。下面我将尝试尽可能清楚地解释我的问题。
d天的树木生长被认为是过去发生的气象的一个函数。例如,给定d天的树木生长可能取决于d-1天和d-20天之间的累积温度,但可能与一年前的温度无关。对于所有其他气象变量也是如此。
我有每日气象数据和每日树木生长数据,以创建的细胞数量为单位。
对于任何给定的气象变量,我想知道过去哪个时期该变量对树木生长的影响最大(就细胞的每日创建而言)。
天真的方法:
让我们选择任何气象变量,例如温度。
我有每日平均温度数据和每日细胞创建数据. 这些是离散函数,但我可以通过插值将它们扩展到所有时间。
解决问题等同于寻找价值最大化相关性
然后将是对增长影响最大的时间间隔的长度,并且区间中心的过去天数。
我们可以进一步细化这一点。过去可能有一个甜蜜点,温度特别影响现在的生长。相反,距离该最佳点较远的温度对当前增长的影响较小。考虑到这一点,我们可以用正态分布权衡积分。
解决问题然后变得最大化
为了,
在哪里是均值正态分布的密度函数和标准差.
最后,我在 R 中编码,可用的相关方法是“Pearson”(通常的方法)、“Spearman”和“Kendall”。Pearson 主要测量线性关系。但是,我不希望增长与温度呈线性关系。与导致最大生长的最佳温度和远离导致较少或没有生长的最佳温度的温度可能存在多项式关系。出于这个原因,我打算使用更好地捕捉非线性关系的 Spearman 相关性。
通过上述方法,我需要假设气象影响(例如温度和降雨)不依赖,但它们可能是依赖的。我现在分别处理每个气象因素。
回到问题:
- 您对我如何解决这个问题有任何想法吗?
- 您是否发现了这种方法中可以解决的重大缺陷?
- 你知道解决这个问题的更好方法吗?
- 您是否知道已经解决的类似问题,我可以寻找解决方案?
非常感谢你的帮助!