我有一个面板数据集。我的因变量是总成本,我的几乎所有自变量都是分类变量。例如,年龄是“旧”、“新”。现在我有一些问题。
我应该对所有这些都使用假人吗?例如,只有类型变量本身有 33 个值,或者我可以使用聚类并减少它们?或任何其他方式,如果你知道)
具有等级的分类变量之间的行为是否存在差异?例如类型是“A”、“B”、...“S”,所以 A 和 B 之间没有等级,但质量是“A1”、“A2”、“A3”,其中 A1 表示最高质量。
我不知道为什么,我找不到关于变量选择和准备数据的足够信息。所以现在我有很多变量,我认为我应该在它们之间进行选择,并减少假人的数量。

