我正在考虑使用 Python 库进行机器学习实验。到目前为止,我一直在依赖 WEKA,但总体上还是很不满意。这主要是因为我发现 WEKA 没有得到很好的支持(很少有例子,文档很少,社区支持在我的经验中不太理想),并且发现自己陷入了困境,没有任何帮助。我考虑采取这一举措的另一个原因是因为我真的很喜欢 Python(我是 Python 新手),并且不想回到 Java 编码。
所以我的问题是,还有什么
- 综合的
- 可扩展(100k 特征,10k 示例)和
- 在 Python 中进行机器学习的支持良好的库?
我对做文本分类特别感兴趣,所以想使用一个库,它有很好的分类器集合、特征选择方法(信息增益、卡方等)和文本预处理能力(词干提取、停用词删除) , tf-idf 等)。
根据过去在这里和其他地方的电子邮件线程,到目前为止,我一直在研究 PyML、scikits-learn 和 Orange。关于我提到的上述 3 个指标,人们的体验如何?
还有其他建议吗?