数据挖掘 - 为推荐而构建的 Web 框架 - 吾爱随笔录

为推荐而构建的 Web 框架

数据挖掘预测建模数据清理

2022-03-01 16:49:40

我想知道是否有一个非常适合在内容上放置建议的网络框架。

在大多数情况下，数据科学家会在事后处理并构建（或使用）完全不同的工具来创建建议。这涉及分析流量日志、购物车数据历史记录、评级等。它通常来自多个来源（Web 服务器、应用程序的数据库、Google Analytics 等），然后必须进行清理和处理，然后以它理解的方式返回给应用程序。

市场上是否有一个网络框架可以预先收集这些数据，以尽量减少追溯数据的争论？

1个回答

我还没有见过这样的东西，并且非常怀疑这样的框架是否存在，至少，作为完整的框架。原因是恕我直言，数据转换和清理是非常特定于领域和项目的。话虽如此，有多种工具可以在部分自动化以及与现有统计和 Web 框架之间的集成方面帮助这些活动。

例如，对于Python，数据操作库pandas和机器学习库的使用scikit-learn可以很容易地与 Web 框架（尤其是基于 Python，但不一定）集成，因为这些库也是基于 Python 的。可以在此处找到这些和其他可能感兴趣的 Python 数据科学工具：http: //pydata.org/downloads。具体来说，对于您询问的清洁和预处理任务，pandas似乎是第一个探索的工具。同样，对于 Python，以下关于 StackOverflow 关于方法和方法的讨论可能会有所帮助：https ://stackoverflow.com/q/14262433/2872891 。

考虑另一个平台的例子。用于数据转换和清理的使用pandas是相当低级的。我非常喜欢并且目前用作数据科学任务首选平台的平台是R. 丰富的 R 包生态系统尤其在数据转换和清洗领域大放异彩。这是因为，除了执行这些任务的非常灵活的低级方法之外，还有一些 R 包采用更高级别的方法来解决问题，这可能会提高开发人员的生产力并减少缺陷数量。特别是，我说的是两个包，我觉得它们很有前途：editrules和deducorrect. 您可以在我在Data Science StackExchange上的另一个答案中找到有关这些和其他用于数据转换和清理的 R 包的更多详细信息（我在最后一个链接中引用的论文可能特别有用，因为它提供了一种数据转换方法和清洁足够通用，因此可以在任何体面的平台上用作此框架）： https ://datascience.stackexchange.com/a/722/2452 。

更新：关于推荐系统及其与数据整理工具和 Web 框架的集成，您可能会发现我在 DS SE 上的其他答案很有用：https ://datascience.stackexchange.com/a/836/2452 。

其它你可能感兴趣的问题

上一篇这个图像识别系统使用了什么软件？下一篇使用谱聚类将新点分配给类