我正在研究一个回归问题,我想预测不同项目的需求。我在我的模型中使用了假期作为一个特征,采用热编码格式,即我有 11 个二进制特征,每个特征代表一个假期。
我想减小我的特征的大小,并考虑使用嵌入假日特征来以较低的维度表示它们。
我是嵌入的新手。我的问题是否有意义,是否对如何做有任何提示?
我正在研究一个回归问题,我想预测不同项目的需求。我在我的模型中使用了假期作为一个特征,采用热编码格式,即我有 11 个二进制特征,每个特征代表一个假期。
我想减小我的特征的大小,并考虑使用嵌入假日特征来以较低的维度表示它们。
我是嵌入的新手。我的问题是否有意义,是否对如何做有任何提示?
这样做很容易。只需在 11 个值和任意大小的嵌入之间创建一个映射。选择嵌入的值通常是通过训练嵌入所属的神经网络来完成的。例如,您可以使用 PCA 等降维技术作为替代方案。
现在,嵌入只有在代表维度特征时才有意义嵌入维度介于 1 和. 因此,就您而言,我不知道您将从降维本身中受益多少。您可能会体验到用密集特征替换稀疏的好处,但这需要进行经验测试。