估计输出变量对输入参数的依赖性的好方法是什么?

机器算法验证 r 回归 实验设计
2022-03-25 18:52:28

我正在评估场景的输出参数对三个参数的依赖性:A、B 和 C。为此,我正在进行以下实验:

  • Fix A+B, Vary C - 总共四组 (A+B),每组有 4 个 C 变体
  • Fix B+C, Vary A - 总共四组 (B+C),每组有 3 个 C 的变体
  • Fix C+A, Vary B - 总共四组 (C+A),每组有 6 个 C 变体

任何模拟的输出都是随时间变化的变量值。例如,A 可以是面积,B 可以是速度,C 可以是车辆数量。我观察到的输出变量是随时间推移发生的车祸次数。

我试图确定哪些参数决定了实验的结果。支配,我的意思是有时,当一个参数发生变化时,结果不会改变,但是当其他一些参数即使发生很小的变化时,也会观察到输出的很大变化。我需要捕捉这种效果并输出一些分析,从中我可以了解输出对输入参数的依赖性。一位朋友建议进行敏感性分析,但不确定是否有更简单的方法。有人可以帮我一个好的(可能很容易,因为我没有统计背景)技术吗?如果所有这些都可以在 R 中完成,那就太好了。

更新: 我使用线性回归来获得以下内容:

lm(formula = T ~ A + S + V)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.35928 -0.06842 -0.00698  0.05591  0.42844 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.01606    0.16437  -0.098 0.923391    
A            0.80199    0.15792   5.078 0.000112 ***
S           -0.27440    0.13160  -2.085 0.053441 .  
V           -0.31898    0.14889  -2.142 0.047892 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1665 on 16 degrees of freedom
Multiple R-squared: 0.6563, Adjusted R-squared: 0.5919 
F-statistic: 10.18 on 3 and 16 DF,  p-value: 0.0005416 

这是否意味着输出主要取决于 A 而较少取决于 V?

2个回答

几点评论:

  1. 你为什么选择你的特定实验设计设置?例如,固定 A+B 并改变 C。您会将 A+B 固定在什么位置?如果您对确定 A 和 B 的影响感兴趣,那么您可以将它们修复为“最佳值”似乎有点奇怪。有用于从多维空间采样的标准统计技术。例如,拉丁超立方体

  2. 一旦你有了数据,为什么不从简单的东西开始,比如多元线性回归。您有 3 个输入 A、B、C 和一个响应变量。我怀疑从您的描述中,您可能必须包含协变量的交互项。

更新

关于您的回归的一些评论:

  1. 数据是否适合您的模型?您需要检查残差。尝试谷歌搜索“R 和回归”。

  2. 仅仅因为您的协变量之一具有较小的 p 值,并不意味着它具有最强的效果。为此,请查看项的估计值:0.8、-0.23、-0.31。βi

    变化一单位导致增加 0.8,而变化一单位导致减少 0.23。但是,协变量的单位是否具有可比性?在物理上不可能改变 1 个单位。只有你才能做出这个决定。ATSTA

顺便说一句,尽量不要更新您的问题,以免改变您的原始含义。如果你有一个新问题,那就问一个新问题。

编辑:经过一番思考,我大大修改了我的答案。

最好的办法是尝试为您的数据找到一个合理的模型(例如,通过使用多元线性回归)。如果您无法获得足够的数据来执行此操作,我会尝试以下“非参数”方法。假设在您的数据集中,协变量取值,同样适用于等。那么您可以做的是对因变量执行线性回归针对指标变量等等。如果你有足够的数据,你还可以包括交互项,例如AA=a1,...,anABCI(A=a1),I(A=a2),...,I(A=anA),I(B=b1),...I(A=a1,B=b1). 然后,您可以使用模型选择技术来消除影响最小的协变量。