我正在尝试获取文本的 n-gram 标记列表
例如:“如何在 sklearn 特征提取中使用 build_analyzer”
输出:['How', 'use', 'build_analyzer', 'sklearn', 'feature', 'extraction', 'How use', 'use build_analyzer', 'build_analzer sklearn', 'sklearn feature', '特征提取']
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
vectorizer = TfidfVectorizer(stop_words = 'english',ngram_range=(1, 2), token_pattern=r'\b\w+\b', min_df=1)
df['Text'].apply(lambda x : vectorizer.build_analyzer(x))
TypeError: build_analyzer() 接受 1 个位置参数,但给出了 2 个