将变量分类为分类或数字的系统方法有哪些?我相信在这种情况下仅使用直觉会多次导致重大的不可逆转的错误。对变量进行分类时最好的策略是什么?
例如,我正在工作的数据框有几个分类变量,例如is_holiday有几个假期的标签。但是,某些变量(例如visibility_in_miles)表明这些变量也需要被视为分类变量。部分原因是虽然大多数变量有数百个唯一值,但有些只有 9 个点。
将变量分类为分类或数字的系统方法有哪些?我相信在这种情况下仅使用直觉会多次导致重大的不可逆转的错误。对变量进行分类时最好的策略是什么?
例如,我正在工作的数据框有几个分类变量,例如is_holiday有几个假期的标签。但是,某些变量(例如visibility_in_miles)表明这些变量也需要被视为分类变量。部分原因是虽然大多数变量有数百个唯一值,但有些只有 9 个点。
变量中的类别数量与变量是否为分类无关。
分类变量是互斥的、无序的组。例如,圣诞节和万圣节是不同的假期,但在“假期”的概念中没有顺序。
序数变量是互斥的、有序的组,没有一致的排序之间的距离度量。例如,对项目进行排名(例如,第一、第二、第三……)。每个地方之间可能存在很大(或很小)的差异。
数值变量在值之间具有一致的差异。10 英里和 11 英里之间的差异与 20 英里和 21 英里之间的差异相同,因为“英里数”是一个一致的衡量标准。