数据是对数十个变量的大量观察,所有变量(可能以某种方式)与二分结果变量相关,并且所有(可能)彼此相关,或与未知/未观察到的事物相关。
我认为“仅仅”应用逻辑回归或任何相关的扩展或改进(如分类和回归树等)可能是不够的,因为似乎存在“基本”贝叶斯网络结构(基于专家意见) - 这意味着观察到的变量以某种方式描述了贝叶斯网络中的不同节点,但它们如何描述这些节点的确切公式尚不清楚,这些节点对结果的最终预测能力也是如此。
这是一个高度简化的示例中的确切问题:
我们有两名跑者将在 400 米短跑中相互竞争。我们有一个包含两名跑步者的数千次此类比赛的观察数据集,每个观察结果包含两名跑步者中的每一个的(a)年龄,(b)大小,(c)过去 6 周的训练次数和( d) 过去 6 周内每次训练的平均里程数。
现在,我们认为(a)和(b)将决定(e)“短跑天赋”,(c)和(d)将决定(f)“当前形式”,并且(e)和(f)一起将给出获胜的概率 - 但我们不知道 (a) 和 (b) 如何确定 (e) 或 (c) 和 (d) 如何确定 (f)(例如,它是“年龄乘以大小”还是“年龄乘以 2 而年龄低于 45”等)。此外,我们也不知道 (e) 和 (f) 如何共同决定获胜的概率......
是否有任何“已知”的方法来解决这样的问题,即确定将初始变量连接到确定结果的后来变量的公式的方法,然后进一步确定结果网络的预测能力?
或者这是不必要的(即仅在某些算法中使用原始变量 - 哪一个? - 应该给出相同的结果)?还是不可能(太多未知的事情)?我应该怎么做/阅读/学习解决这个问题?
此外,有没有办法检查我的原始假设(即(a)和(b)确定(e)等)是否正确,例如通过某种聚类算法、PCA……?
面对这样的问题,你会怎么做?
非常感谢您通过为我指出正确的方向来帮助一个相当新的数据科学学习者!