我最近发布了一个包含许多部分的问题,我想只关注一个我在原始帖子中没有强调的问题。
我的数据是一个记录列表,每个记录代表一个教育研讨会活动。我有一个连续变量,代表每次研讨会带来的收入,这是我的回归中的响应变量。我还有一些作为因素/IV的分类变量。
这些分类因素之一是主持活动的演讲者。问题在于,有时不止一个演讲者主持一个特定的活动。迄今为止,我们所有的扬声器都是从 154 个扬声器中抽取的。大多数时候,只使用一个扬声器,但在大约 10% 的数据点中,使用了两个、三个甚至四个扬声器。目前,这在我的数据中用斜线表示(“扬声器一/扬声器二/扬声器三”)。我编写了一个 Python 脚本,可以找到给定日期间隔的研讨会的平均收入,这些研讨会采用给定级别的分类变量(例如,它可以返回 2008 年所有研讨会的平均收入,其中演讲者一号是主持人)...我的脚本可以很好地读取多扬声器格式,将“/”两侧的名称作为单独的扬声器读取。
不幸的是,R 似乎无法做这样的事情......我对我的数据进行了多元回归,显然它将“扬声器一”、“扬声器二”和“扬声器一/扬声器二”视为三个不同的扬声器。我的多重 r 平方值小于 0.5,所以我希望解决这个问题将有助于改进模型......如何最好地进行?