来自 MathOverflow 的交叉帖子,有人建议我在这里可能会得到更好的结果。
我正处于一个问题的早期阶段,该问题涉及解析大量()文档(网页)并从中估计值。特别是我需要识别提供盗版文件下载的页面并估计它们的流量。虽然有些网站会公开他们的流量统计数据,但很多网站不会。我留下了一个稀疏的数据集来填充大量的空白。好消息是,标记的页面由人工验证,人工提取他们可以找到的任何页面查看数据。这意味着我不必担心编写软件来识别或收集存在的数据。如果我成功了,我希望将我的技术从这个问题应用到许多其他问题上。
如您所见,这实际上是一个由两部分组成的问题。有一个分类阶段,我估计一个网站是否有可能产生盗版文件,还有一个估计阶段,我使用回归技术来估计页面可能有多少浏览量。
我的(天真的)方法是从每个文档(n-word-gram,而不是 n-character-gram)中提取 n-gram 计数向量,这给了我从符号集到(高维)整数集的映射。它有很多维度,但我以前做过并取得了一些成功。我可以使用这个 n-gram“轮廓”来应用逻辑回归或角度比较进行分类,然后使用线性回归进行估计。那里有一些非常复杂的机器学习算法,但我不确定我可以在估计阶段对它们使用哪种性能评估技术。
但是,我确信有更好的方法来做到这一点。我无法想象网页的语言配置文件与其流量有多大的相关性。我相信网站流量与链接到它的页面有很大关系,我可以想象使用图论来模拟页面浏览量的传播。但是,除非该站点被标记为可以查看,否则不会收集该数据。只有少量页面会记录其页面浏览量。我也许可以编写一个正则表达式来匹配在表达他们获得的“多少视图”时使用的常用短语,但我不愿意花时间为该特定功能编写某种复杂的分类算法。
我也确信我可以从我没有想到的网页中提取大量其他测量值。实际上,这是一个将网页内容和链接拓扑转换为可用于回归分析的有意义变量的问题。所以我对你的问题是:
- 哪些技术已被证明对文档分类有效?
- 我什至从哪里开始学习建模和估计互联网流量?
如果这些问题不够严谨,我很抱歉,但在这个阶段,我需要更多的基础知识,而不是关于特定定理的建议。这些科目不是我的主要专业领域。