使用 Logistics 回归跳过 Gram 负抽样

数据挖掘 word2vec
2022-03-05 15:54:37

给定一个训练语句如下表格文件:
......柠檬,一汤匙杏酱一小撮......

Word apricot选择作为 t 的目标词,窗口大小为 2


带有负样本和正样本的训练样本如下所示

正样本:
杏 汤匙

杏脯

负样本:(1个正样本对应2个负样本)
杏 土豚 杏 十二
杏 水坑杏 hello
apricot where apricot Dear
apricot coaxial apricot forever

似然函数(单字):

log11+ect+i=1klog11+enit
1. K为 2,因为每个正样本
2有 2 个负样本。tapricot
3的单词向量。c是窗口大小内的单词向量,例如正样本 4中的apricot tablespoon 。
ni是每个正样本的负样本中的单词向量

问题:
这是我的问题:
1如何将负样本和正样本拟合到向量中c向量ni和矢量t?
在深度学习版本中,它是一种热编码,但在这个版本中呢?
2 . 小数据集的任何可行示例?
3 . 我怎么知道向量 t 的训练结果是正确的?
因为我更喜欢只用非常小的数据集来研究这种方法,而且这种方法需要大量的训练样本和一周左右的训练时间
但是我的目标是学习这种方法,而不是为了词嵌入

这对任何提供帮助的人都很好对于我的问题,我不仅在寻求帮助,而且还分享我学到的东西

0个回答
没有发现任何回复~