我有一个大约 90,000 行的数据集,其中包含社交媒体资料的信息,其中包含传记、追随者人数、所讲语言、姓名、用户名和标签的列(以确定资料是否是影响者、品牌或新闻和媒体的资料) .
任务:我必须训练一个预测标签的模型。然后我需要为每个预测生成一个置信区间。
因为我从来没有遇到过这样的问题,所以我只是在一些关于我应该在这种情况下使用哪些模型的建议之后?我在考虑自然语言处理 (NLP),但不确定。
此外,对于 NLP(如果是合适的方法),任何帮助我第一次在 Python 上实现的代码或建议将不胜感激!先谢谢了