我有一个数据集,其中包含从图形中描述为年度趋势的人口的观察结果。例如——每年男性感染率,每年女性感染率。
感染是汇总的计数数据,并且有基于人口的分子数据可用。
我将使用哪种统计测试来确定男性感染时间趋势是否与女性感染时间趋势不同。
谢谢。
我有一个数据集,其中包含从图形中描述为年度趋势的人口的观察结果。例如——每年男性感染率,每年女性感染率。
感染是汇总的计数数据,并且有基于人口的分子数据可用。
我将使用哪种统计测试来确定男性感染时间趋势是否与女性感染时间趋势不同。
谢谢。
让我们从一些考虑开始:
人们通常从简单合理的模型开始,如理论所建议并受数据限制,只有在更简单的模型不够用时才转向更复杂的模型。这就是统计分析如何将简约的科学呼吁付诸实践。
拟合趋势是回归分析的一种形式。
因为你有计数数据,你自然会首先考虑二项式回归或泊松回归。第一个在任何情况下都是合适的,而后者是相对较低的比率的极好近似值(这是人们希望感染的结果!)并且在软件中广泛可用。(普通最小二乘法(OLS) 是有效的进一步近似值,前提是所有年度感染计数都相当大,比如几十到几百甚至更多,并且感染计数随着时间的推移相当稳定。)
当有较长的时间序列数据可用时(通常为 20-30 年以上),您可以考虑使用时间序列分析来帮助解释每年的利率相关性。不过,通常情况下,您会首先用尽似是而非的回归模型来解释随时间的非线性变化,可能会包括二次项、“水平位移”或(更一般地)样条曲线。请注意,所有形式的回归都内置了对斜率随时间变化进行建模的灵活性;它不是某些特定方法的特殊功能。
在任何回归模型中,您都可以包含男性和女性趋势的单独项。这是通过“指标”或“虚拟变量”编码将男性/女性作为协变量引入并将它们作为交互作用来完成的。最近在此站点和此处已对此进行了讨论,您可以在其中找到明确说明的统计模型。
在极端情况下,(a)您考虑两组之间所有回归系数不同的可能性(截距和斜率以及任何其他协变量的系数)和(b)您使用 OLS 近似,此分析减少到周测试。链接是威廉·古尔德(William Gould)的精彩论述,他提供了直言不讳的建议(“我责怪……老师……不必要的行话”)和清晰的例子。不用担心软件是Stata;输出才是最重要的,它是标准的。
好吧,约翰,使用单一趋势模型可能会有风险。如果您的数据有水平偏移,您可能会错误地得出关于随时间持续变化的结论。如果您的数据更能代表 y(t)=y(t-1) + 常数,则您的趋势模型不适用。我可以继续讨论 y(t)=a+b*t 形式的趋势模型是如何不足的,但我不会(在这里!)。现在给出一个巨大的假设,即 y(t)=a+b*t 模型您假设生成具有恒定均值(无处不在)、独立(即没有可证明的自相关结构)、具有恒定方差的同分布误差的高斯分布 那么您可以使用 CHOW TEST http://en.wikipedia.org/wiki/Chow_test来检验两组 a、b 相等或至少没有显着差异的假设。