多维、非度量(输入和输出)数据的汇总测试统计是一个艰难的推销,并且可能具有有限的可解释价值。
您可以在另一个(目标)上运行一个变量(输入)的比例赔率逻辑回归模型 - 如果您愿意进行分析,以比较目标在输入水平上的概率分布。它将显示输入变量是否对输入级别和目标类具有显着不同的依赖性。您使用哪种对比方案对于预测概率并不重要,但是,对于权重的解释,您可能希望使用正交多项式。您将需要解释示例测试用例及其在条形图上的预测分布。这是因为随着权重的 logit 概率尺度,回归过程确定了截止值 - 这使得解释 logit 尺度数量相当困难。
例如,使用 R,您的代码将是
#input data
#quality <- scan()
#confidence <- scan()
Q <- length(unique(quality))
C <- length(unique(confidence))
require(MASS)
# tell R that the data is ordinal
quality <- factor(quality, levels = paste(1:Q), ordered = TRUE)
confidence <- factor(confidence, levels = paste(1:C), ordered = TRUE)
# train model, R will use orthogonal polynomials by default
polr.model <- polr(confidence ~ quality)
#plot probability predictions as pdf for each input level
lapply(
unique(quality),
function(z) {
pdf(paste('Quality_predictive_probabilities-Confidence_',z,'.pdf',sep=''))
probs <- predict(polr.model,newdata=list(quality=z), type='probs')
barplot(probs,xlab=paste('Quality',z),ylab='Confidence')
dev.off()
}
)
这会将概率预测保存到您当前的工作目录中。如果观众在统计上知道这些词对社区来说意味着非常具体的东西,那么你可能需要小心调用你的变量信心和质量。