数据挖掘 - 文档解析建模和方法？ - 吾爱随笔录

我对数据科学/机器学习比较陌生（是的，我知道）并且正在尝试文本分析。我只想要一种相对幼稚的方法，并且希望知道我的方法在程序上是否有效，即使我可能无法获得完美的结果。我想将我的模型与针对简历索引的特定技能/关键字的全文 tf-idf 搜索进行比较。

任务：分类job descriptions，而不是以无监督的方式对它们进行聚类。最终，我想与resumes他们匹配，作为我想法的基本实现。我在想词嵌入和 kmeans 的简单实现会很好。基本上，document_vectors从特定的职位描述中提取，然后根据这些向量对职位描述进行聚类。这将创建一个贫民区“标记”系统，以便我可以应用分类算法然后我将使用 resume raw_text 并提取一个新向量，将一个简单的分类应用到这些集群之一（回归）。

总结

1. Use a large database of job descriptions
2. Tokenize the text, and apply doc2vec and generate document vectors
3. Cluster the documents and group similar job descriptions
    NOTE: as to how many clusters to use, that will have to be tuned
4. Tokenize the raw_text of a resume
5. Use regression (or some technique) to find the closest cluster based on the resume vector compared to the cluster vector.

现在，我意识到我这样做的方式很可能存在一些巨大的漏洞（我使用的是基于没有训练的直觉）。例如，我什至可以将简历与职位描述相匹配的假设是基于这些甚至是可比较的文本结构的想法——匹配的好坏还取决于文档聚类的好坏。

我想知道这种方法是否适合幼稚的东西，或者我是否遗漏了任何关键的东西。我正在使用nltk,scikit-learn和gensim Word2Vec