我有一个包含 700 多万条记录的数据集,其特征应该产生良好的预测能力。问题是它具有比它应该的更多的独特价值。10k+ 个唯一值应该映射到大约 150 个。我有我希望它们映射到的 150 个值的列表。考虑使用距离算法(levenshtein?)将唯一值从数据映射到所需的一组值。还有什么其他的方法来思考这个问题?
前任。'Table'、'tab'、'tbl' 都应该映射到 'table'。考虑到唯一值的数量,我不打算为此过程手动构建查找表。数据中的唯一值均源自所需值——它们是首字母缩写词或缩写词。