如何在 Java Weka API 中使用自定义停用词过滤器?

数据挖掘 分类 爪哇 威卡
2021-10-07 10:22:40

我正在使用 Java Weka API 来构建分类模型。我可以使用内置的停用词过滤器。但是,我需要为我的问题使用自定义过滤器。我不知道如何在 Java Weka API 中使用自定义停用词过滤器。

2个回答

你可以试试下面的代码。

import weka.core.converters.ConverterUtils.DataSource;
import weka.filters.unsupervised.attribute.StringToWordVector;
import weka.core.Instances;

Instances data = DataSource.read(".../document.txt"); //Your document .
filter.setInputFormat(data);
StringToWordVector filter = new StringToWordVector();
filter.setStopwords(new File(".../stopwords.txt")); //stop words file.
Instances data = Filter.useFilter(data,filter);

您还可以阅读以下文档以更好地了解 Weka API for Java。 http://weka.sourceforge.net/doc.stable/

首先,您必须为自定义停用词准备一个文本文件。然后您可以使用以下代码:

import weka.filters.unsupervised.attribute.StringToWordVector;

StringToWordVector filter = new StringToWordVector(10000);
filter.setStopwords(new File(".../stopwords.txt"));

希望它会帮助你。