我想知道是否有一个非常适合在内容上放置建议的网络框架。
在大多数情况下,数据科学家会在事后处理并构建(或使用)完全不同的工具来创建建议。这涉及分析流量日志、购物车数据历史记录、评级等。它通常来自多个来源(Web 服务器、应用程序的数据库、Google Analytics 等),然后必须进行清理和处理,然后以它理解的方式返回给应用程序。
市场上是否有一个网络框架可以预先收集这些数据,以尽量减少追溯数据的争论?
我想知道是否有一个非常适合在内容上放置建议的网络框架。
在大多数情况下,数据科学家会在事后处理并构建(或使用)完全不同的工具来创建建议。这涉及分析流量日志、购物车数据历史记录、评级等。它通常来自多个来源(Web 服务器、应用程序的数据库、Google Analytics 等),然后必须进行清理和处理,然后以它理解的方式返回给应用程序。
市场上是否有一个网络框架可以预先收集这些数据,以尽量减少追溯数据的争论?
我还没有见过这样的东西,并且非常怀疑这样的框架是否存在,至少,作为完整的框架。原因是恕我直言,数据转换和清理是非常特定于领域和项目的。话虽如此,有多种工具可以在部分自动化以及与现有统计和 Web 框架之间的集成方面帮助这些活动。
例如,对于Python,数据操作库pandas和机器学习库的使用scikit-learn可以很容易地与 Web 框架(尤其是基于 Python,但不一定)集成,因为这些库也是基于 Python 的。可以在此处找到这些和其他可能感兴趣的 Python 数据科学工具:http: //pydata.org/downloads。具体来说,对于您询问的清洁和预处理任务,pandas似乎是第一个探索的工具。同样,对于 Python,以下关于 StackOverflow 关于方法和方法的讨论可能会有所帮助:https ://stackoverflow.com/q/14262433/2872891 。
考虑另一个平台的例子。用于数据转换和清理的使用pandas是相当低级的。我非常喜欢并且目前用作数据科学任务首选平台的平台是R. 丰富的 R 包生态系统尤其在数据转换和清洗领域大放异彩。这是因为,除了执行这些任务的非常灵活的低级方法之外,还有一些 R 包采用更高级别的方法来解决问题,这可能会提高开发人员的生产力并减少缺陷数量。特别是,我说的是两个包,我觉得它们很有前途:editrules和deducorrect. 您可以在我在Data Science StackExchange上的另一个答案中找到有关这些和其他用于数据转换和清理的 R 包的更多详细信息(我在最后一个链接中引用的论文可能特别有用,因为它提供了一种数据转换方法和清洁足够通用,因此可以在任何体面的平台上用作此框架): https ://datascience.stackexchange.com/a/722/2452 。
更新:关于推荐系统及其与数据整理工具和 Web 框架的集成,您可能会发现我在 DS SE 上的其他答案很有用:https ://datascience.stackexchange.com/a/836/2452 。