我一直在围绕 NLTK 算法进行一些数据预测。
从这个gib开始,我开始了我的理解过程。但是,有些位没有意义。
如果我有一组 100 个特征,所有特征都是分类的,那么拆分它们有什么意义,拿 10% 并在此基础上构建训练集?我认为训练集应该包含所有列表,并根据正在测试的新关键字来衡量准确性?
任何提示都会有所帮助。
我一直在围绕 NLTK 算法进行一些数据预测。
从这个gib开始,我开始了我的理解过程。但是,有些位没有意义。
如果我有一组 100 个特征,所有特征都是分类的,那么拆分它们有什么意义,拿 10% 并在此基础上构建训练集?我认为训练集应该包含所有列表,并根据正在测试的新关键字来衡量准确性?
任何提示都会有所帮助。
如果您没有分类测试集 - 可以测量性能得分,那么使用部分训练数据作为验证集很有用,这意味着您可以在其上测试模型的性能(因为您有真正的标签/值)。
分割的百分比是任意的,取决于您拥有的自由度(个体数量与变量数量) - 0.1 到 0.25 是常见的选择。