网红营销场景推荐建模技术

人工智能 训练 自然语言处理 情绪分析
2021-10-26 13:19:20

我有一个大约 90,000 行的数据集,其中包含社交媒体资料的信息,其中包含传记、追随者人数、所讲语言、姓名、用户名和标签的列(以确定资料是否是影响者、品牌或新闻和媒体的资料) .

任务:我必须训练一个预测标签的模型。然后我需要为每个预测生成一个置信区间。

因为我从来没有遇到过这样的问题,所以我只是在一些关于我应该在这种情况下使用哪些模型的建议之后?我在考虑自然语言处理 (NLP),但不确定。

此外,对于 NLP(如果是合适的方法),任何帮助我第一次在 Python 上实现的代码或建议将不胜感激!先谢谢了

1个回答

这在很大程度上取决于数据的结构。

我会首先考虑特征提取,这可能是生物中出现的某些单词,以及一类用户名(“真实”姓名、数字 ID 等)。一旦为每个数据项设置了一组特征,就可以将它们转换为特征向量列表。

然后通过一些机器学习算法运行它们。这就是数据的形状很重要的地方,因为某些算法会比其他算法更好地工作。我会尝试例如决策树(ID3),它在训练后非常有效(但它们不会给你一个置信区间)。但任何其他 ML 算法都可能有效。它们都将在训练速度、内存要求和分类速度方面进行权衡;有些会给你一个类别标签的概率,有些只会给你一个标签。

最好的方法是使用样本,并确定哪种算法运行良好并符合您的特定要求。然后将其用于完整的数据集。

或者,您也可以使用例如Stanford ML 分类器这会给你一个置信区间,并且可能会很好地工作。