数据挖掘 - nltk 衡量新功能的准确性 - 吾爱随笔录

数据挖掘预言 nltk

2022-03-07 18:25:51

我一直在围绕 NLTK 算法进行一些数据预测。

从这个gib开始，我开始了我的理解过程。但是，有些位没有意义。

如果我有一组 100 个特征，所有特征都是分类的，那么拆分它们有什么意义，拿 10% 并在此基础上构建训练集？我认为训练集应该包含所有列表，并根据正在测试的新关键字来衡量准确性？

任何提示都会有所帮助。

1个回答

如果您没有分类测试集 - 可以测量性能得分，那么使用部分训练数据作为验证集很有用，这意味着您可以在其上测试模型的性能（因为您有真正的标签/值）。

分割的百分比是任意的，取决于您拥有的自由度（个体数量与变量数量） - 0.1 到 0.25 是常见的选择。

其它你可能感兴趣的问题