我试图预测用户给餐厅的分数。
我拥有的数据可以分为两个数据框
- 关于用户的数据(品味、个人特征、家庭……)
- 有关餐厅的数据(营业时间、位置、美食……)。
第一个主要问题是:我该如何处理?
我已经尝试使用用户数据框进行基本预测(使用 RandomForest 预测一列,其他列很少),这非常简单。这些数据框在逻辑上是不同的,我无法将它们合并为一个。
做这样的预测时最好的方法是什么?此类任务最常用的方法是什么?
我的第二个问题是处理分类数据(cuisine fe)的最佳方法是什么?
我知道我可以创建一个映射函数并将每个值转换为索引,或者我可以使用 pandas 中的分类(可能还有其他几种方法)。有没有首选的方法来做到这一点?