我有一个来自我的 Facebook 应用程序的数据库,我正在尝试使用机器学习根据他们喜欢的 Facebook 网站来估计用户的年龄。
我的数据库有三个关键特征:
我的训练集中的年龄分布(总共 12k 用户)偏向年轻用户(即我有 1157 个 27 岁的用户和 23 个 65 岁的用户);
许多网站的点赞数不超过 5 个(我过滤掉了点赞数少于 5 个的 FB 网站)。
还有比样本更多的功能。
所以,我的问题是:您建议采取什么策略来准备数据以进行进一步分析?我应该执行某种降维吗?在这种情况下,哪种 ML 方法最适合使用?
我主要使用 Python,因此非常感谢 Python 特定的提示。