机器算法验证 - 关于使用二元组（N-gram）模型为文本文档构建特征向量 - 吾爱随笔录

用于文本挖掘的特征构建的传统方法是词袋方法，并且可以使用 tf-idf 来增强以设置表征给定文本文档的特征向量。目前，我正在尝试使用二元语言模型或（N-gram）来构建特征向量，但不太知道该怎么做？我们是否可以只遵循词袋的方法，即用二元组而不是词来计算频率计数，并使用 tf-idf 加权方案对其进行增强？