问题陈述:一辆救护车正在医院接病人。医护人员的目标是尽快出院。我很好奇,救护车在医院运送病人多长时间的因素是什么?在给定某些变量的情况下,我可以预测卸载需要多长时间。我对这个模型有多大的信心?因变量是 HospitalTime,它是一种比率类型的数据,以秒为单位。自变量是:
- 医院,一种重新编码为整数的名义数据类型,1 代表李纪念。
- 救护车,一种重新编码为整数的标称数据类型,9 代表救护车 #9
- PatientPriority 是一种重新编码为整数的有序数据类型。A 1 是高优先级,2 是中等优先级,3 是低敏锐度。
- MonthOfCall 是一种重新编码为整数的区间类型的数据。6 表示 6 月,12 表示 12 月。在这种情况下,12(十二月)不是 6(六月)的两倍。
- HourOfCall 是一种重新编码为整数的区间类型的数据。再一次,晚上 10:00 发生的卸载不比上午 10:00 发生的事情多。
- 官员 1 和官员 2 是名义数据,是代表 EMT 和护理人员的整数。
我的问题是:鉴于这种类型的数据和我预测医院卸载时间的目标,我应该研究什么样的回归模型?
我看过大学时代的统计书籍,它们都使用比率数据。我的数据混合了名义、序数、区间和比率。
我有尽可能多的数据。我至少有 100,000 个观察值。
你能把我推向正确的方向吗?我应该使用什么样的模型来处理这种类型的数据?
下面显示的是观察结果,可以让您稍微了解一下我的数据:
IncidentID,HospitalTime,Hospital,Ambulance,PatientPriority,MonthOfCall,HourOfCall,Officer1,Officer2
757620,1849,7,11,2,10,10,234,771,chr(10) 802611,2625,7,11,3,1,18,234,777,chr(10)
765597,1149,7,12,3,11,2,234,777,chr(10) 770926,1785,7,12,3,11,15,234,777,chr(10)
771689,3557,7,12,2,11,14,234,777,chr(10) 822758,1073,7,20,3,3,13,777,307,chr(10)
767249,2570,7,22,2,11,11,560,778,chr(10) 767326,1998,7,22,1,11,18,560,777,chr(10)
785903,1660,7,22,3,12,12,234,777,chr(10) 787644,2852,7,22,3,12,17,234,777,chr(10)
760294,1327,7,23,2,10,14,498,735,chr(10) 994677,3653,7,32,2,2,15,181,159,chr(10)
994677,3653,7,32,2,2,15,181,159,chr(10) 788471,2053,5,9,2,1,3,498,777,chr(10)
788471,2053,5,9,2,1,3,498,777,chr(10) 759983,1342,5,11,2,10,8,474,777,chr(10)
791243,1635,5,11,2,1,18,234,777,chr(10) 800796,1381,5,11,3,1,11,234,777,chr(10)
PS 这个问题在 Stack-Overflow 中以相同的标题和作者交叉发布。