我有一个包含 N 个特征的数据集,每个特征都有 500 个时间实例。
例如,假设我有以下内容:
Features x, y, v_x, v_y, a_x, a_y, j_x, j_y,
每个特征包含 500 个示例(表中的行)
的样本,具有 500 个其他实例的样本和一个类。
我想使用随机森林算法自动选择特征的子集。问题是该算法(我使用的是 ScikitLearn,RandomForestClassifier)接受一个矩阵(二维数组)作为 X 输入,大小为 [N_samples,N_features]。如果我按原样给出数组,即特征的向量(len 500),特征x的另一个向量(len 500)y等,我得到一个 N_samples x N_features x 500 数组,这与要求不兼容随机森林分类器。
我试图在一个向量中展开矩阵,就像拥有 500 x N_features 数组一样,但这样一来,在缩减过程中,它考虑了所有元素的独立特征,并打破了我的结构。
如何选择/减少保持时间实例一致的特征?
(我可以使用这个算法,但我也对其他库和/或算法开放)
我的目标是进行分类,因此预测资源对我的用处有限。我还要求每个样本都有这些事件,不幸的是我没有将它们作为单独的样本。
