什么是关联数据语言分析的有效回归技术?

机器算法验证 回归 机器学习 文本挖掘 离散数据 大数据
2022-04-19 20:09:20

来自 MathOverflow 的交叉帖子,有人建议我在这里可能会得到更好的结果。

我正处于一个问题的早期阶段,该问题涉及解析大量()文档(网页)并从中估计值。特别是我需要识别提供盗版文件下载的页面并估计它们的流量。虽然有些网站会公开他们的流量统计数据,但很多网站不会。我留下了一个稀疏的数据集来填充大量的空白。好消息是,标记的页面由人工验证,人工提取他们可以找到的任何页面查看数据。这意味着我不必担心编写软件来识别或收集存在的数据。如果我成功了,我希望将我的技术从这个问题应用到许多其他问题上。5×109

如您所见,这实际上是一个由两部分组成的问题。有一个分类阶段,我估计一个网站是否有可能产生盗版文件,还有一个估计阶段,我使用回归技术来估计页面可能有多少浏览量。

我的(天真的)方法是从每个文档(n-word-gram,而不是 n-character-gram)中提取 n-gram 计数向量,这给了我从符号集到(高维)整数集的映射。它有很多维度,但我以前做过并取得了一些成功。我可以使用这个 n-gram“轮廓”来应用逻辑回归或角度比较进行分类,然后使用线性回归进行估计。那里有一些非常复杂的机器学习算法,但我不确定我可以在估计阶段对它们使用哪种性能评估技术。

但是,我确信有更好的方法来做到这一点。我无法想象网页的语言配置文件与其流量有多大的相关性。我相信网站流量与链接到它的页面有很大关系,我可以想象使用图论来模拟页面浏览量的传播。但是,除非该站点被标记为可以查看,否则不会收集该数据。只有少量页面会记录其页面浏览量。我也许可以编写一个正则表达式来匹配在表达他们获得的“多少视图”时使用的常用短语,但我不愿意花时间为该特定功能编写某种复杂的分类算法。

我也确信我可以从我没有想到的网页中提取大量其他测量值。实际上,这是一个将网页内容和链接拓扑转换为可用于回归分析的有意义变量的问题。所以我对你的问题是:

  • 哪些技术已被证明对文档分类有效?
  • 我什至从哪里开始学习建模和估计互联网流量?

如果这些问题不够严谨,我很抱歉,但在这个阶段,我需要更多的基础知识,而不是关于特定定理的建议。这些科目不是我的主要专业领域。

1个回答

这两个问题都很难,我会​​试一试第一个。

对文档进行分类的一种直接方法是计算它们的tf-idf简而言之,您认为文本是一个词袋,它没有线性结构,并且您计算一个分数,表明该词在多大程度上是文档的特定部分。我在这里稍微解释一下如何做到这一点

完成此操作后,通常会将文本与余弦相似度度量进行比较,余弦相似度是它们的 tf-idf 向量的余弦值。如果它们具有很高的相似性,则它们具有相似的特定词,您可以猜测它们是关于同一主题的。

您可以计算余弦,但可以进行各种几何运算。特别是你可以安装支持向量机,它在文本分类中给出了很好的结果。

最后,最后一个想法是使用关键字提取工具,例如Alchemy API将您的文档总结为 10-20 个相关关键字。然后,您可以在此降维数据集上使用标准分类技术。

作为文本分类的一个很好的入门,我建议介绍信息检索(免费)和挖掘社交网络......不是免费的,但可能从最好的盗版网站上获得 ;-)