数据挖掘 - 序列模型 word2vec - 吾爱随笔录

我正在处理一个包含超过 100,000 条记录的数据集。这是数据的样子：

email_id    cust_id campaign_name
123         4567     World of Zoro
123         4567     Boho XYz
123         4567     Guess ABC
234         5678     Anniversary X
234         5678     World of Zoro
234         5678     Fathers day
234         5678     Mothers day
345         7890     Clearance event
345         7890     Fathers day
345         7890     Mothers day
345         7890     Boho XYZ
345         7890     Guess ABC
345         7890     Sale

我正在尝试了解活动顺序并为客户寻找下一个可能的活动。

假设我已经处理了我的数据并将其存储在“camp”中。

使用 Word2Vec-

from gensim.models import Word2Vec

model = Word2Vec(sentences=camp, size=100, window=4, min_count=5, workers=4, sg=0)

这个模型的问题在于它接受标记并在寻找相似性时以概率返回文本标记。

Word2Vec 接受这种形式的输入-

['World','of','Zoro','Boho','XYZ','Guess','ABC','Anniversary','X'...]

并给出这种形式的输出——

model.wv.most_similar('Zoro')
[Guess,0.98],[XYZ,0.97]

由于我想预测与目标词结合更频繁发生的活动序列，我想知道是否有任何方法可以将以下输入提供给模型并在输出中获取活动名称

我的输入是 -

[['World of Zoro','Boho XYZ','Guess ABC'],['Anniversary X','World of 
Zoro','Fathers day','Mothers day'],['Clearance event','Fathers day','Mothers 
day','Boho XYZ','Guess ABC','Sale']]

输出 -

model.wv.most_similar('World of Zoro')
[Sale,0.98],[Mothers day,0.97]

我也不确定 Word2Vec 或任何类似算法中是否有任何功能可以帮助为个人用户找到下一个可能的活动。