免责声明: 我知道这可能被认为是一种主观类型的问题,但我希望它足够具体,不会被标记。请给它一个机会。
我正在 scikit-learn 中对 50 本书的语料库进行 GridSearch(所有商业出版的平均文本......每篇约 200 页文本)。
当我开始使用 GridSearch 时,我开始思考。建立管道肯定必须有某种“最佳实践”吗?
当然,我可以包含和删除参数,但我实际上只是在黑暗中四处寻找最好的分数。
可能,首先使用更大、更有效的参数创建一个更小的探索性管道可能是有意义的。在运行这个基本管道之后,接下来可以运行更多影响较小(通常)的参数。
例如,假设我正在 GridSearching 一个 TfidfTransformer。我假设use_idf打开或关闭开关会对得分产生真正的影响,而指定alpha=0.000010vsalpha=0.000015可能不会。
一般来说,在使用管道时,是否有替代“扔进厨房水槽”的替代方法,可以带来更认知、信息丰富(并且可能更快)的体验?