将布尔数据纳入分析

机器算法验证 造型 分类数据 模型选择 二进制数据
2022-03-25 20:01:18

我有一个包含大约 3,000 个实地观察的数据集。

收集的数据分为 20 个变量(实数)、30 个布尔变量、10 个左右的查找变量和一个“答案”变量

我们在该领域有大约 20,000 个对象,我正试图根据 3,000 个观察结果为 20,000 个对象生成一个“答案”。

有哪些包含布尔值和查找表的可用方法?

关于我应该如何进行的任何建议?

编辑

答案变量也是一个布尔值

编辑 2

变量数据的样本:

  • 标本年龄
  • 长度、面积、体积
  • 自上次检查以来的时间
  • 高度
  • 设计生活

查找表

  • 材料类型
  • 涂层类型
  • 设计标准
  • 设计有效性

布尔值的样本

  • 检查了吗?
  • 是不是状态不好
  • 是否需要尽快维修

我的 f(x) 的答案变量是:

  • 是否可用
4个回答

您正在描述“分类变量”(以 R a 因子表示)。通过分配级别,这些可以合并到几乎任何统计模型中。您需要提供有关您的特定问题的更多详细信息,以便获得有关特定方法的建议。

编辑

如果响应变量有两种可能的结果,您可以考虑二项式逻辑回归。

注意:如果您不熟悉统计中的不同类型变量,我建议阅读 Andrew Gelman 的“使用回归和多级/分层模型的数据分析”的前几章,其中以非常易于理解的方式涵盖了这一点。

听起来您正试图预测您的布尔响应,是吗?

这称为分类。

逻辑回归是这里显而易见的选择,但也有其他方法。你不能做传统的回归,因为响应不是一个实数。

查找变量称为名义变量,可以使用“虚拟”变量在回归中处理。

例如,如果您的查找变量是 type=[steel, aluminium,plastic] (N=3),那么您的虚拟变量将如下所示:

IsSteel = [1,0] IsAlum = [1,0]

只有两个 (N-1) 虚拟变量,因为 IsSteel=0 AND IsAlum=0 表示“IsPlastic”=1

但是任何好的统计程序都应该处理这个问题。

如果你需要一本书,我推荐《头发的多变量数据分析》。

Ingo Ruczinski为促进对由二元变量组成的数据集使用逻辑回归做出了贡献,重点是高阶交互项。与通常的或受惩罚的 GLM 相比,主要优势在于它在自由度方面更加吝啬。结果可能是连续的或分类的,并且可以将连续协变量添加到模型中(或者如果这些是感兴趣的二元预测变量,则可以首先对结果进行残差)。

原纸

Ruczinski I, Kooperberg C, LeBlanc ML (2003)。逻辑回归计算和图形统计杂志,12(3),475-511。

包括在生物医学研究中的一些应用,以及 LR 与CARTMARS的比较。虽然它主要应用于大规模遗传研究(例如全基因组关联研究),但它应该适用于任何可以用一组逻辑运算符表示感兴趣的组合的二元变量。

LogicReg R 包实现了这种技术另请参阅 CRAN 和 Bioconductor 的相关软件包,尤其是。LogicForest与随机森林分享一些想法。

尝试随机森林;根据我的经验,它可能在此类数据上表现良好,并为您提供一些额外的有趣信息,如变量重要性和对象相似性度量。