很抱歉,这个范围非常广泛,但作为一名非 ML 科学家,几乎不可能跟上最近的发展(尤其是在深度学习等方面)。因此,我正在寻求有关如何处理此特定用例的指导:
目标是从约 50,000 个二进制输入变量中预测二进制输出(输入数据相当稀疏,平均大约 1,000 个 1)。训练数据集包括数千个(相当平衡的)标记样本。我已经有一个非 ML 解决方案来解决这个问题,但它的计算成本很高。因此,我的问题:
- 哪些 ML 算法在这种规模的二进制数据上运行良好(即在小型 HPC 集群上训练相当快)。
- 它们是否允许提取有关输入的信息(即各个二进制变量的负载量)。
- 拥有二进制数据的性能优势有多大?与使用 50k 二进制输入变量相反,我可以运行 PCA 并使用前几百台 PC(大约需要 500 台才能恢复 90% 的方差)进行训练/预测。有什么优点/注意事项?
输入变量的顺序并不是真正的“随机”,但它们的重要性可能是。因此,我认为 CNN 不是最好的主意,但非卷积神经网络在这种规模上是否可行?此外,通常只有少数输入变量主要决定输出,如果这对模型选择有任何影响的话。
我过去曾与 ML 合作过,但这是几年前的事了,我的理论知识还不够生疏。此外,从那时起,神经网络架构/框架等的多样性已经爆炸式增长,因此我想在盲目尝试一切之前征求一些意见。