我想分析MovieLens 数据集并在我的机器上加载 M1 文件。我实际上结合了两个数据文件(ratings.dat 和 movies.dat)并根据'userId'
和'Time'
列对表进行排序。我的 DataFrame 的头部看起来像这里(所有列值都对应于原始数据集):
In [36]: df.head(10)
Out[36]:
userId movieId Rating Time movieName \
40034 1 150 5 978301777 Apollo 13 (1995)
77615 1 1028 5 978301777 Mary Poppins (1964)
550485 1 2018 4 978301777 Bambi (1942)
400889 1 1962 4 978301753 Driving Miss Daisy (1989)
787274 1 1035 5 978301753 Sound of Music, The (1965)
128308 1 938 4 978301752 Gigi (1958)
497972 1 3105 5 978301713 Awakenings (1990)
28417 1 2028 5 978301619 Saving Private Ryan (1998)
6551 1 1961 5 978301590 Rain Man (1988)
35492 1 2692 4 978301570 Run Lola Run (Lola rennt) (1998)
genre
40034 Drama
77615 Children's|Comedy|Musical
550485 Animation|Children's
400889 Drama
787274 Musical
128308 Musical
497972 Drama
28417 Action|Drama|War
6551 Drama
35492 Action|Crime|Romance
[10 rows x 6 columns]
我无法理解用户 ID 为 1 的同一用户在同一时间观看或评价不同的电影(Apollo13 (Id:150)、Mary Poppins (Id:1028) 和 Bambi (Id:2018) ). 如果有人已经在使用这个数据集,请清除这种情况。