电影镜头数据集

数据挖掘 数据集 熊猫
2021-09-16 18:03:48

我想分析MovieLens 数据集并在我的机器上加载 M1 文件。我实际上结合了两个数据文件(ratings.dat 和 movies.dat)并根据'userId''Time'列对表进行排序。我的 DataFrame 的头部看起来像这里(所有列值都对应于原始数据集):

In [36]: df.head(10)
Out[36]: 
        userId  movieId  Rating       Time                         movieName  \
40034        1      150       5  978301777                  Apollo 13 (1995)   
77615        1     1028       5  978301777               Mary Poppins (1964)   
550485       1     2018       4  978301777                      Bambi (1942)   
400889       1     1962       4  978301753         Driving Miss Daisy (1989)   
787274       1     1035       5  978301753        Sound of Music, The (1965)   
128308       1      938       4  978301752                       Gigi (1958)   
497972       1     3105       5  978301713                 Awakenings (1990)   
28417        1     2028       5  978301619        Saving Private Ryan (1998)   
6551         1     1961       5  978301590                   Rain Man (1988)   
35492        1     2692       4  978301570  Run Lola Run (Lola rennt) (1998)   

                            genre  
40034                       Drama  
77615   Children's|Comedy|Musical  
550485       Animation|Children's  
400889                      Drama  
787274                    Musical  
128308                    Musical  
497972                      Drama  
28417            Action|Drama|War  
6551                        Drama  
35492        Action|Crime|Romance  

[10 rows x 6 columns]

我无法理解用户 ID 为 1 的同一用户在同一时间观看或评价不同的电影(Apollo13 (Id:150)、Mary Poppins (Id:1028) 和 Bambi (Id:2018) ). 如果有人已经在使用这个数据集,请清除这种情况。

1个回答

当您在电影镜头上输入评级时,您会得到包含 10 部电影左右的页面。您设置所有评级,然后通过单击“下一页”或其他内容提交。所以我想当你提交页面时,同一页面的所有评级都是同时收到的。