我对这一切都很陌生,正在整理一个学习项目。我决定在http://en.wikipedia.org/wiki/Enron_Corpus等数据集中寻找用户之间的相似性。在做了一些研究之后,我还遇到了Dataset for Named Entity Recognition on Informal Text。所以我并不缺乏数据或目标,我需要了解高级技术才能达到目标。
一个有价值的评论指出,这个问题似乎过于宽泛。我希望通过这个问题找到的是我应该重点研究的技术的广度,而不是可以立即实施的答案。请考虑完全合适的模糊答案!
扩展目标,我希望发现哪些作者可能彼此有亲和力,或者相反,彼此不太关心。所以我肯定需要从命名实体识别开始,并建立一种方法来组织针对这些实体的文档。除此之外,我不太确定。
我应该看哪些高级概念?谢谢!