使用 Doc2Vec 和其他功能创建相似度度量

数据挖掘 Python 特征工程 word2vec 相似
2022-02-16 14:18:47

我有一个包含许多特征的数据集。每条记录都是具有许多功能的公司。

例如...

A公司:

  • 关键字 - 数据、大数据、画面、仪表板等。

  • 行业 - 信息技术

  • 子行业 - 数据可视化

  • 总资金 - 150,000,000 美元

我想在多家公司之间创建一个相似性度量,结合在关键字列表上训练的 doc2vec 嵌入以及列出的附加功能。我很难搜索/找到做这种事情的论文。有任何想法吗?

1个回答

如果您将一条记录视为查询,而将“附近”记录视为搜索结果,您可以将相似性度量视为搜索问题。

我在这篇论文之后取得了一些不错的成果:https ://arxiv.org/pdf/1602.01137.pdf

据我了解,论文中使用的文档向量仅有助于提高搜索结果与已经不错的结果(前 N 个结果)的相关性。

对我来说,这表明您可以尝试先开发与其他属性一起使用的相似性分数,然后执行加权平均值之类的操作,其中 doc2vec 分数的重要性会根据第一个指标迅速衰减。