nltk 衡量新功能的准确性

数据挖掘 预言 nltk
2022-03-07 18:25:51

我一直在围绕 NLTK 算法进行一些数据预测。

从这个gib开始,我开始了我的理解过程。但是,有些位没有意义。

如果我有一组 100 个特征,所有特征都是分类的,那么拆分它们有什么意义,拿 10% 并在此基础上构建训练集?我认为训练集应该包含所有列表,并根据正在测试的新关键字来衡量准确性?

任何提示都会有所帮助。

1个回答

如果您没有分类测试集 - 可以测量性能得分,那么使用部分训练数据作为验证集很有用,这意味着您可以在其上测试模型的性能(因为您有真正的标签/值)。

分割的百分比是任意的,取决于您拥有的自由度(个体数量与变量数量) - 0.1 到 0.25 是常见的选择。