数据挖掘 - 在非正式数据集中寻找用户相似性 - 吾爱随笔录

我对这一切都很陌生，正在整理一个学习项目。我决定在http://en.wikipedia.org/wiki/Enron_Corpus等数据集中寻找用户之间的相似性。在做了一些研究之后，我还遇到了Dataset for Named Entity Recognition on Informal Text。所以我并不缺乏数据或目标，我需要了解高级技术才能达到目标。

一个有价值的评论指出，这个问题似乎过于宽泛。我希望通过这个问题找到的是我应该重点研究的技术的广度，而不是可以立即实施的答案。请考虑完全合适的模糊答案！

扩展目标，我希望发现哪些作者可能彼此有亲和力，或者相反，彼此不太关心。所以我肯定需要从命名实体识别开始，并建立一种方法来组织针对这些实体的文档。除此之外，我不太确定。

我应该看哪些高级概念？谢谢！