我有一个包含 4 列的 DataFrame:'Headline'、'Body_ID'、'Stance'、'articleBody',其中 'Headline' 和 'articleBody 包含已清理和标记化的单词。我想使用 nltk 找到二元语法,并且到目前为止:
bigram_measures = nltk.collocations.BigramAssocMeasures()
articleBody_biGram_finder = df_2['articleBody'].apply(lambda x: BigramCollocationFinder.from_words(x))
我在应用 with 的最后一步时遇到articleBody_biGram_finder问题bigram_measures。我已经尝试使用列表理解对 lambda 进行多次迭代,但一无所获。
我最近的尝试:
df_2['articleBody_scored'] = score_ngrams(bigram_measures.raw_freq) for item in articleBody_biGram_finder
df_2['articleBody_scored'] = articleBody_biGram_finder.apply(lambda x: BigramCollocationFinder.score_ngrams(bigram_measures.raw_freq))