我有一些电影及其字幕的数据。我想根据它们的收视率对它们进行分类

数据挖掘 分类 nlp 支持向量机 主成分分析 低密度脂蛋白
2022-03-09 02:38:19

我会将字幕转换为向量,并将它们用作特征,根据它们的收视率将电影分类为不同的类别。我面临的问题是我的特征向量与我拥有的示例数量相比要大得多。我想知道我的拖尾数据集的大小应该是多少才能使用 LDA、PCA、SVM 和朴素贝叶斯。每个类别 10 部电影是否足够?

0个回答
没有发现任何回复~