在非正式数据集中寻找用户相似性

数据挖掘 机器学习 分类 聚类
2022-02-18 20:07:06

我对这一切都很陌生,正在整理一个学习项目。我决定在http://en.wikipedia.org/wiki/Enron_Corpus等数据集中寻找用户之间的相似性。在做了一些研究之后,我还遇到了Dataset for Named Entity Recognition on Informal Text所以我并不缺乏数据或目标,我需要了解高级技术才能达到目标。

一个有价值的评论指出,这个问题似乎过于宽泛。我希望通过这个问题找到的是我应该重点研究的技术的广度,而不是可以立即实施的答案。请考虑完全合适的模糊答案!

扩展目标,我希望发现哪些作者可能彼此有亲和力,或者相反,彼此不太关心。所以我肯定需要从命名实体识别开始,并建立一种方法来组织针对这些实体的文档。除此之外,我不太确定。

我应该看哪些高级概念?谢谢!

1个回答

当您接受模糊的答案时:Sranford NLP 工具非常适合这类东西。NER、POS Tagger、Parsers 等。现在对于机器学习本身,我会尝试查看 WEKA,它有很多过滤、分类器和聚类方法,包括 StringToWordVector 过滤器,在我看来,这些是文本的基础分类。大多数情况下,你应该寻找的标签是文本分类、自然语言处理,如果你愿意的话,甚至是情感分析。