我正在尝试使用机器学习对推文进行二进制分类。
这样做的通常方法似乎是将手工分类的推文单词放入一个大向量中,然后将该向量用作算法的输入,然后根据该数据预测新推文。
在这个过程中,是否有一种标准方法或算法可以包含其他输入,例如推文的位置?
我想我可以在向量的末尾添加推文位置,但这会给它一个非常小的权重。
任何指针都非常感谢。
我正在尝试使用机器学习对推文进行二进制分类。
这样做的通常方法似乎是将手工分类的推文单词放入一个大向量中,然后将该向量用作算法的输入,然后根据该数据预测新推文。
在这个过程中,是否有一种标准方法或算法可以包含其他输入,例如推文的位置?
我想我可以在向量的末尾添加推文位置,但这会给它一个非常小的权重。
任何指针都非常感谢。
数据预处理和特征提取是迄今为止任何机器学习算法中最重要的部分。更重要的是您选择的模型进行分类。
不幸的是,对于每种类型的数据,预处理和特征提取是完全不同的。您需要自己处理数据,以找出最适合您的数据性质的方法。有了经验,您开始注意到一些具有不同数据类型的模式。例如,正如您所做的那样,构建词向量是使用基于文本的数据进行特征提取的有效手段。
“我想我可以在矢量末尾添加推文位置,但这会给它一个非常小的权重。”
这对于我选择的任何机器学习算法都是完全不正确的。您的模型不应根据其数组位置将权重与输入相关联。它们应该根据它提供的解释方差(信息增益)相关联。
在您进行预处理和特征提取之后,您可以使用一些常见的方法进一步细化您的特征集,这些方法可以在库中找到,例如:主成分分析 (PCA) 和线性判别分析 (LDA)。