数据挖掘 - 使用 Doc2Vec 和其他功能创建相似度度量 - 吾爱随笔录

数据挖掘 Python 特征工程 word2vec 相似

2022-02-16 14:18:47

我有一个包含许多特征的数据集。每条记录都是具有许多功能的公司。

例如...

A公司：

我想在多家公司之间创建一个相似性度量，结合在关键字列表上训练的 doc2vec 嵌入以及列出的附加功能。我很难搜索/找到做这种事情的论文。有任何想法吗？

1个回答

如果您将一条记录视为查询，而将“附近”记录视为搜索结果，您可以将相似性度量视为搜索问题。

我在这篇论文之后取得了一些不错的成果：https ://arxiv.org/pdf/1602.01137.pdf

据我了解，论文中使用的文档向量仅有助于提高搜索结果与已经不错的结果（前 N 个结果）的相关性。

对我来说，这表明您可以尝试先开发与其他属性一起使用的相似性分数，然后执行加权平均值之类的操作，其中 doc2vec 分数的重要性会根据第一个指标迅速衰减。

其它你可能感兴趣的问题