我一直在尝试通过对具有 2264 行和 20475 列的文档项计数矩阵进行矩阵乘法运算,在 pandas 中创建一个相似度矩阵。
计算在 IPython 中完成,但检查显示结果全部返回为NaN.
我也尝试在 numpy 中做同样的工作,尝试转换原始矩阵to_sparse,甚至将值重新转换为整数,但仍然没有乐趣。
任何人都可以提出解决问题的最佳方法吗?
编辑:到目前为止,这是我的代码:
path = "../../reuters.db"
%pylab inline
import pandas as pd
import numpy as np
import pandas.io.sql as psql
import sqlite3 as lite
con = lite.connect(path)
with con:
sql = "SELECT * FROM Frequency"
df = psql.frame_query(sql, con)
print df.shape
df = df.rename(columns={"term":"term_id", "count":"count_id"})
pivoted = df.pivot('docid', 'term_id', 'count_id')
pivoted.to_sparse()
similarity_matrix = pivoted.dot(pivoted.T)