机器算法验证 - 生物数据集中NA和None的区别 - 吾爱随笔录

生物数据集中NA和None的区别

机器算法验证多元分析数据集生物统计学生态

2022-04-14 22:35:09

我收集了有关动物的环境数据，并正在寻求有关如何处理某些变量的帮助，其中非数字值可以提供信息，但也存在问题。我有三个相互依赖的变量：日志、到日志的距离和最近日志的直径。这些品质是在动物所在的 1 米平方象限周围 4 米半径的样本区域内测量的。

在log : NA 的情况下，我无法对象限或周围 4m 区域（无法访问）进行采样，None 表示采样区域中不存在日志，这意味着它在逻辑上可能等于 0。
对于到日志的距离，如果日志为“无”或“0”，则 NA 不合适，因为这再次意味着我无法对空间进行采样，但到日志的距离值为“0”意味着日志是在 1 米平方象限内，如果在 4 米样本区域内确实没有日志，这是不正确的。[1 平方米的象限代表整个动物]。
存在与最近原木直径相同的问题：NA 表示我无法对空间进行采样，但值为 0 表示测得的原木直径为“0 厘米”，而原木的直径实际上不能为零（在这个实验中，原木是直径大于 7.5 厘米的木块）。

因此，对于最近原木的距离和直径，如果原木不存在，则 0 不能是逻辑结果，但如果存在原木，则到最近原木的距离为零。有关如何解决此字符与数字问题以进行统计分析的任何建议？解决方案可能必须使用“无”、“0-1”、“1-2”等值来制作这些分类变量，我需要修改使用分类和处理重复测量的多元模型数值数据。

最终目标是对许多环境变量进行多变量分析，以比较动物选择的环境与森林中可用的、随机选择的环境。

先感谢您。

1个回答

您正在处理的情况是，您的变量（到日志的距离、最近日志的直径）仅在存在先前变量条件（日志存在）的情况下才有意义。您可以通过对变量进行编码来处理此问题，以便在不存在日志的情况下将条件变量设置为零，以便 log-indicator 变量捕获不存在日志的整个“影响”。对于无法观察该区域的数据点，您可以将这两个变量编码为NA并将它们视为缺失数据。这是我的意思的一个例子。

\begin{array}{rrr} Outcome & Log (Indicator) & Distance (m) & Diameter (m) \\ Inaccessible site & NA & NA & NA \\ No log on site & 0 & 0 & 0 \\ Log on site & 1 & 2.34 & 1.21 \end{array}

$\begin{array} {|r|r|r|} \hline \text{Outcome} & \text{Log (Indicator)} & \text{Distance (m)} & \text{Diameter (m)} \\ \hline \text{Inaccessible site} & \text{NA} & \text{NA} & \text{NA} \\ \hline \text{No log on site} & 0 & 0 & 0 \\ \hline \text{Log on site} & 1 & 2.34 & 1.21 \\ \hline \end{array}$

如果您要将此类数据放入回归模型中，则存在对数的指示变量将允许模型对无对数给出不同的预测，而不是对非常靠近的非常小的对数给出的预测（距离和接近零的直径）。这将允许您解释模型中的参数，以便在没有对数时获得预测结果，在有对数时获得预测结果，后一种效果取决于距离和直径。如果您想确保您的模型不允许没有对数但对其他条件变量有积极影响的结果，您可以将条件变量编码为交互效应，如下所示：

Response ~ Intercept + Log + Log:Distance + Log:Diameter

如果您以这种方式对模型进行编码，则值为 $\text{Log} = 0$ 意味着该结果中除了截距之外没有其他系数。然后，您会将NA值视为缺失数据，使用标准技术（插补等）来处理这些问题。

其它你可能感兴趣的问题

上一篇关于形状位置的时间序列聚类的合适距离度量下一篇来自线性回归模型的 Cohen d