在熊猫中找到二元组

数据挖掘 Python nlp 熊猫 nltk
2022-02-25 23:05:05

我有一个包含 4 列的 DataFrame:'Headline'、'Body_ID'、'Stance'、'articleBody',其中 'Headline' 和 'articleBody 包含已清理和标记化的单词。我想使用 nltk 找到二元语法,并且到目前为止:

bigram_measures = nltk.collocations.BigramAssocMeasures()
articleBody_biGram_finder = df_2['articleBody'].apply(lambda x: BigramCollocationFinder.from_words(x))

我在应用 with 的最后一步时遇到articleBody_biGram_finder问题bigram_measures我已经尝试使用列表理解对 lambda 进行多次迭代,但一无所获。

我最近的尝试:

df_2['articleBody_scored'] = score_ngrams(bigram_measures.raw_freq) for item in articleBody_biGram_finder

df_2['articleBody_scored'] = articleBody_biGram_finder.apply(lambda x: BigramCollocationFinder.score_ngrams(bigram_measures.raw_freq))

1个回答

df_2['bigram_scored'] = df_2['bigram_finder'].apply(lambda x: x.score_ngrams(bigram_measures.raw_freq))