我正在执行在线新闻分类。这个想法是识别同一主题的一组新闻。我的算法有以下步骤:
1)我浏览了一组来自新闻网站的提要,我识别出新闻链接。
2) 对于每个新链接,我使用dragnet提取内容,然后将其标记化。
3) 我使用sklearn的 TfidfVectorizer 找到了所有旧新闻和最后一个新闻的矢量表示。
4)我在我的数据集中找到最近的邻居,计算与最后一个新闻向量表示和旧新闻的所有向量表示的欧几里得距离。
我在使用 TfidfVectorizer 时遇到了问题,因为它对只出现在少数新闻中的特殊词赋予了更多权重,比如Apple,而谈论Aple的新闻即使处理不同的主题也会被归为一组。
那么,有没有比我使用的更有效的通用方法?