为了构建分类器,我需要从存储在MySQL database. 我需要加入多个表,这需要很多时间。我一次加入了 2 张桌子,并在多种情况下得到了结果。我需要将它们结合起来。编写脚本将是最好的选择?人们如何从大型关系数据库中提取特征?我错过了什么吗?
谢谢。
为了构建分类器,我需要从存储在MySQL database. 我需要加入多个表,这需要很多时间。我一次加入了 2 张桌子,并在多种情况下得到了结果。我需要将它们结合起来。编写脚本将是最好的选择?人们如何从大型关系数据库中提取特征?我错过了什么吗?
谢谢。
有两个极端:
编写一个 SQL 查询,创建单个物化视图,该视图的格式设置为可以用于机器学习。
编写几个 SQL 查询,从数据库中获取所有可能相关的数据。然后将它们放入另一个系统中,以创建一个准备好用于机器学习的表。
它通常是两种策略的组合。
确切的策略取决于 SQL 查询编写能力、数据大小、执行数据库查询的机器大小以及在 SQL 之外处理数据的能力。
根据个人经验,优先考虑完成工作或优化工作流程的任何工作。