如何为市场研究设计实验(有点扭曲)?

机器算法验证 实验设计 营销
2022-03-23 10:20:45

考虑一种拍卖,例如,向您展示 1000 名潜在客户。根据有关这些潜在客户的信息——年龄、性别、种族、收入、教育成就等——你可以“投标”将你的产品推销给他们中的一小部分,比如 250。(忽略投标成本。)最大化您选择正确子集的机会,我可能会使用使用逻辑回归构建的我们产品的“喜爱度”模型。我可以很好地摸索这部分。

然而,为了建立产品喜爱度模型,我必须做一些市场调查,测试我们可能从广大人群中招募的主题的产品宣传。这实际上是相当昂贵的。此外,它可能应该根据从中抽取潜在客户的人口统计数据进行调整。例如,一个因子设计可能会要求我们在种族因素的水平上以相等的比例招募测试对象,而实际上我们可能会遇到很少的美洲原住民,比如在 1000 个潜在客户中,并且可以简单地作为一项规则,选择根本不向他们推销。(悲伤,但真实。)

这样的实验应该如何设计?具体来说,设计变量都是分类和顺序因素,投标分数是输入参数(在上面引用的示例中为 1/4),可以招募的最大受试者数量也是如此。似乎实验设计和随机抽样的某种组合可能是合适的,但我愿意接受所有合理的建议和指示。

我还应该指出,鉴于我们可以负担得起的可能较小的效应量和小样本招聘池,市场研究不太可能产生统计上显着的回归系数。所以过度优化实验设计可能是愚蠢的,任何合理的非疯狂程序就足够了。

1个回答

解决问题的一种方法是使用分层样本。分层的一个目的是确保人口的某些领域(组)在样本中得到表示,否则这些领域(组)的表示将过于稀疏而无法进行有效推理,例如由于选择概率小。

例如,如果“美洲原住民”是一个重要的群体,就您对“喜爱度模型”的估计而言,但他们的选择概率非常小,那么大小为的简单随机样本 (SRS)可能不包含或仅包含非常这种类型的单位很少。如果你然后包括 Nat。是。作为模型中的指示变量,估计值可能会非常不可靠(大标准误差),或者根本无法估计参数。分层样本的目标是避免这种情况。n=50

分层意味着选择比在 SRS 中具有更高概率的单位。在估计逻辑/多项式回归时,您将能够使用分层权重(设计权重)来调整更高的选择概率。权重通常定义为其中是分层样本的选择概率,而是使用 SRS 时的选择概率。

wi=πsπpop,
πsπpop

,您可能无法对您提到的所有特征进行分层。在分层中,您通常需要从结果列联表的所有单元格中交叉所有特征和样本。的情况下,不可能再充分填充所有单元格n=50n=50

因此,我的建议是查看您的特征并做出如下选择。首先,列出您希望在最终模型中具有的所有特征,因为您假设它们将具有“受欢迎程度”的预测能力,或者它们识别出在“投标过程”中重要的群体。其次,从这些特征中,区分那些在抽样过程中暗示选择概率高和低的特征。的 SRS 样本的情况下,低选择概率可能会给您在某一类别中的观察值太少n

例如,“性别”通常是一个很好表示的变量,在流行中具有 50/50 的概率。因此,即使,您也会有“足够”的男性和女性,但 Nat。是。可能不是这种类型的变量,但对您的模型仍然很重要。如果需要,功效分析可能会提供进一步的指导,但它取决于特定的模型,并且对于多分回归可能非常复杂。n=50

选择概率过低的特征是分层的候选者,而在其类别中具有足够高/平衡选择概率的变量在抽样设计中可以忽略不计。现在您已经确定了人口和模型的关键层,您可以在它们上构建抽样设计策略(即从所有相关层中随机抽样以填充所有“单元格”)。

我希望这样做时,您最终会得到足够少的层来继续进行大小样本n=50.