给定一个网页 url 和从给定页面提取的文章文本,我想计算文章是内容营销的概率。
我认为内容营销不同于垃圾邮件,因为它承认,内容营销为向读者提供真实信息做出了一些认真的努力。但是,在内容营销的背景下写一篇文章的真正原因是迟早要引导读者订阅时事通讯、产品登陆页面或联系作者。在内容营销人员的语言中,这种合格的读者被认为是“领导者”。
1. 号召性用语
我可以使用 Knn 或 Bayes 简单地针对已知 CTA 的训练集测试文章文本中的气味。
好的,这就是 NLP 的用武之地,这只不过是垃圾邮件检测。
2.链接结构
我可能会在某个页面或文章的外链中找到有关内容营销动机的有力证据。如果它链接到着陆页样式的产品页面(也需要一些启发式方法来识别此类网页),并且该网站的许多其他站点链接到“附近”页面。
“附近”是指文本相似性,针对(和相同的)关键字进行了优化。
问题 那么您对此有何看法?得分怎么可能。概率模型应该是什么样的?有没有我想念的方面?有没有人在这个领域有一些经验?有纸吗?有谁知道这方面的一些资源?