我有 (20905040, 7) 的数据集向用户推荐 10 种不同的产品,
它可能比这更大,但无论如何我在处理
cosine_sim = cosine_similarity(normalized_df,normalized_df)
-------------------------------------------------- ------------------------------------- MemoryError Traceback (last last最近调用) in 1 get_ipython().run_line_magic('time', '') -- --> 2 cosine_sim = cosine_similarity(normalized_df,normalized_df)
~/venv/lib/python3.6/site-packages/sklearn/metrics/pairwise.py in cosine_similarity(X, Y, dense_output) 1034 1035 K = safe_sparse_dot(X_normalized, Y_normalized.T, -> 1036 dense_output=dense_output) 1037第1038章
~/venv/lib/python3.6/site-packages/sklearn/utils/extmath.py in safe_sparse_dot(a, b, dense_output) 140 return ret 141 else: --> 142 return np.dot(a, b) 143 144
内存错误:
问题
1. 当我有太多行时,如何应用余弦相似度?
2.他们在谈论内存吗?或者什么内存错误?
3.有没有办法使用gpu进行余弦相似度训练?
4. 有什么好主意吗?