数据挖掘 - 如何在 Java Weka API 中使用自定义停用词过滤器？ - 吾爱随笔录

如何在 Java Weka API 中使用自定义停用词过滤器？

数据挖掘分类爪哇威卡

2021-10-07 10:22:40

我正在使用 Java Weka API 来构建分类模型。我可以使用内置的停用词过滤器。但是，我需要为我的问题使用自定义过滤器。我不知道如何在 Java Weka API 中使用自定义停用词过滤器。

2个回答

你可以试试下面的代码。

import weka.core.converters.ConverterUtils.DataSource;
import weka.filters.unsupervised.attribute.StringToWordVector;
import weka.core.Instances;

Instances data = DataSource.read(".../document.txt"); //Your document .
filter.setInputFormat(data);
StringToWordVector filter = new StringToWordVector();
filter.setStopwords(new File(".../stopwords.txt")); //stop words file.
Instances data = Filter.useFilter(data,filter);

您还可以阅读以下文档以更好地了解 Weka API for Java。 http://weka.sourceforge.net/doc.stable/

首先，您必须为自定义停用词准备一个文本文件。然后您可以使用以下代码：

import weka.filters.unsupervised.attribute.StringToWordVector;

StringToWordVector filter = new StringToWordVector(10000);
filter.setStopwords(new File(".../stopwords.txt"));

希望它会帮助你。

其它你可能感兴趣的问题

上一篇为什么在验证集和测试集上进行预测有区别？下一篇oneHotEncoding 的问题