我是一名 SQLServer DBA,在这个工具的新版本中,有一些新功能可以集成R 脚本并轻松地将其与 DB 对象一起使用。听起来很酷。
但是要使用它,我们必须对统计数据和数据挖掘有所了解。对于像我这样的新手来说,很难找到友好且易读的文档。所以,我会要求一些关于集群的最佳实践。
我有一个包含数百条记录和 5 个特征的数据集,包括分类和数字。
关于分类数据,我有几个基本问题:
如何管理分类数据?我从发现的文章中了解到,我可以将分类数据转换为布尔值并“旋转”它。如果 a 有一个包含分类数据的列(例如具有值 'a' 或 'b'),则创建新列,如 column_a 和 column_b 值 0 或 1 ?
我应该始终居中/缩放这个新列吗?