我有一个数据集,我处理并创建了六个特征:
['session_id', 'startTime', 'endTime', 'timeSpent', 'ProductList',
'totalProducts']
并且目标变量是一个二进制类(性别)。
功能“productList”是一个列表:
df['ProductList'].head()
Out[169]:
0 [13, 25, 113, 13793, 2, 25, 113, 1946, 2, 25, ...
1 [12, 31, 138, 14221, 1, 31, 138, 1979, 1, 31, ...
2 [13, 23, 127, 8754, 0]
3 [13, 26, 125, 5726, 2, 26, 125, 5727, 2, 26, 1...
4 [12, 23, 119, 14805, 1, 23, 119, 14806, 0]
Name: ProductList, dtype: object
现在,很明显我不能按原样使用此功能。我该如何处理这个功能?我可以展开列表并为每个列表项创建一行,但这是否符合我的目的?
更新:我在分解列表后应用了 OHE,它导致 10k+ 列,我的 GCP 实例和我的计算机无法处理;应用 PCA 时。
PS:有超过 17,000 种独特的产品。