如何确定多个分类特征的哈希位长度?

数据挖掘 特征提取
2022-03-03 18:58:28

假设我有个分类特征每个都有不同的字母大小如何有效地优化该特征向量的散列技巧?我应该独立枚举每个功能的哈希位长度(贪婪)吗?很小)的特征不需要散列?最佳实践策略是什么?Nfi i(1,N)nini

1个回答

如何有效地优化该特征向量的散列技巧?

使用不同大小的散列和散列函数,看看哪个效果最好。不能提前说出来。

我应该独立枚举每个功能的哈希位长度(贪婪)吗?

不,这绝不是一个好习惯。散列应该对所有功能都是通用的。

我是否应该假设小字母(ni 很小)的特征不需要散列?

您始终可以选择不散列特定功能。这意味着您认为这些功能更重要,应该避免冲突。