我正在尝试在熊猫数据框中执行主题提取。我正在使用 LDA 主题建模来提取数据框中的主题。没问题。
但是,我想将 LDA 主题建模应用于我的数据框中的每一行。
当前数据名:
| 日期 | cust_id | 字 |
|---|---|---|
| 2019 年 3 月 14 日 | 100001 | samantha 吊带裙 pi 滑雪 |
| 2020 年 1 月 21 日 | 10002 | 钢裙 纯绿色 |
| 2020 年 5 月 19 日 | 10003 | 亚利桑那牛仔衬衫 d |
我正在寻找的数据框:
| 日期 | cust_id | 字 | 话题 0 字 | 主题 0 权重 |
|---|---|---|---|---|
| 2019 年 3 月 14 日 | 100001 | samantha 吊带裙 pi 滑雪 | 短裙 | 0.5 |
| 2020 年 1 月 21 日 | 10002 | 裙子纯绿色 | 偏绿 | 0.2 |
| 2020 年 5 月 19 日 | 10003 | 亚利桑那牛仔衬衫 | 牛仔布 | 01 |
vectorizer = CountVectorizer(max_df=0.9, min_df=20, token_pattern='\w+| $ [\d.]+|\S+')
tf = vectorizer.fit_transform(features['words']).toarray()
tf_feature_names = vectorizer.get_feature_names()
number_of_topics = 6 模型 = LatentDirichletAllocation(n_components=number_of_topics, random_state=1111)
模型.fit(tf)
我试图将两个数据框合并在一起,它不起作用。
我如何能够在每列中添加每个主题并添加每个主题权重以添加到我的所有行中?
我在stackoverflow中发布了这个问题: https ://stackoverflow.com/questions/71476309/topic-modelling-in-an-existing-dataframe-in-python