假设我有个分类特征每个都有不同的字母大小。如何有效地优化该特征向量的散列技巧?我应该独立枚举每个功能的哈希位长度(贪婪)吗?很小)的特征不需要散列?最佳实践策略是什么?
如何确定多个分类特征的哈希位长度?
数据挖掘
特征提取
2022-03-03 18:58:28
1个回答
如何有效地优化该特征向量的散列技巧?
使用不同大小的散列和散列函数,看看哪个效果最好。不能提前说出来。
我应该独立枚举每个功能的哈希位长度(贪婪)吗?
不,这绝不是一个好习惯。散列应该对所有功能都是通用的。
我是否应该假设小字母(ni 很小)的特征不需要散列?
您始终可以选择不散列特定功能。这意味着您认为这些功能更重要,应该避免冲突。