我目前正在研究基因组学的逻辑回归模型。我想作为协变量包含的输入字段之一是genes
. 大约有 24,000 个已知基因。在计算生物学中有许多具有这种可变性水平的特征,并且需要数十万个样本。
- 如果我
LabelEncoder()
那些 24K 基因 - 然后
OneHotEncoder()
他们...
对于 2.2 GHz 四核 i7 CPU,24,000 列是否会使我的 keras 训练时间不合理?
如果是这样,我可以采用不同的编码方法吗?
我应该以某种方式尝试将模型的一层专门用于此功能吗?
这是否意味着我需要 24K 输入节点?