我有一个大约 37,000 行和 54 列的数据框。在这 54 列中,以非常令人毛骨悚然的格式提供了两列,即“user_id”和“mail_id”,如下所示:
user_id mail_id
AR+tMy3H/E+Re8Id20zUIz+amJkv6KU12o+BrgIDin0= DQ/4I+GIOz2ZoIiK0Lg0AkwnI35XotghgUK/MYc101I=
1P4AOvdzJzhDSHi7jJ3udWv4ajpKxOn4T/rCLv4PrXU= BL3z4RtiyfIDydaRYWX2ZXL6IX10QH1yG5ak1s/8Lls=
OEfFUcsTAGInCfsHuLZuIgdSNtuNsg8EdfN98VUZVTs= BL3z4RtiyfIDydaRYWX2ZXL6IX10QH1yG5ak1s/8Lls=
1P4AOvdzJzhDSHi7jJ3udWv4ajpKxOn4T/rCLv4PrXU= EHNBRbi6i9KO6cMHsuDPFjZVp2cY3RH+BiOKwPwzLQs=
CYRcuV0cR0algMZJ1N6+3uKcqi8iu+6tJNzmBbmgN7o= K0y/NW59TJkYc5y0HUwDeAXrewYT0JQlkcozz0s2V5Q=
在对我的数据进行详细分析后,我发现我不能从我的数据框中删除这两列,因为它们对于预测来说太重要了。我可以散列这两个特性,但还有一件更有趣的事情。user_ids 和 mail_ids 只有 2,000 种类型。所以做一个热编码会有很大帮助。我的问题是,如果我在 pandas 中使用 'get_dummies' 方法将其转换为一种热编码sparse = True,它会节省内存还是有其他有效的方法可以做到这一点?
