在文本挖掘的背景下,我想在我的数据集中发现潜在的同义词。当前数据集是archive.org 上stackexchange 的stackoverflow 数据。结果不一定是完美的,我可以手动进行后期处理。但我需要帮助才能知道哪个术语似乎与另一个术语“相似”。
这里是我正在寻找的同义词示例:
- postgresql, postgres, pgsql, psql
- 移动, 电话, 安卓, iphone
同样在最好的情况下,也应该可以猜测多词同义词,例如:
- rdbms,关系数据库管理系统
- 奥巴马,巴拉克奥巴马
该算法不需要计算这些是多向同义词(如 rdbms 和关系数据库管理系统)和单向同义词(如 iphone 是移动设备但并非所有移动设备都是 iphone)。
我读到 word2vec 可能会有所帮助,但我不确定如何使用它。