当因变量是(披萨的)存在缺失数据以及当前披萨之间的相似性时,我试图找出建立回归的正确方法。忍受这个故事:
弄清楚教皇对比萨店菜单的影响
你是一名披萨历史学家,最近获得了一项资金,用于研究一种困扰该领域数十年的现象——教皇效应。
众所周知,教皇在任期间经常光顾相互排斥的比萨店群。一个悬而未决的问题是:教皇的出现是否会改变比萨店菜单上的任何项目?. 具体来说,在下面的卡通因果模型中,您想知道来自教皇效应的箭头的强度。
您收集了 20 家比萨店的数据,其中一些是教皇经常光顾的,而另一些则不是。它们之间有 10 个可能的菜单项。每个比萨店都有一些菜单项目,有些是罕见的。
当您检查不同披萨的相似性数据时,您会得到一些诱人的结果:
看起来,尽管空间相关性很高,但 JPII 的披萨店提供的意式香肠披萨非常相似,这表明这些餐馆可能已经迎合了他的意愿。弗朗西斯最喜欢的披萨店的菜单上都有 bistecca 披萨,而其他的都没有。
重点是什么?
- 某些类型的比萨饼的种类比其他类型的要少。
- 你想做一个分层模型,这样每个比萨饼都可以有自己的斜率和截距,但仍然与其他比萨饼共享信息。
- 有些比萨店靠得很近,你会认为他们的菜单和菜单上的比萨饼非常相似,仅基于地理位置。
- 您想以某种方式对空间自相关进行建模。
- 您想估计每个教皇对他们访问的比萨店的比萨相似度的影响,以及比萨类型的存在/不存在。
- 当比萨店没有特定的比萨时,您有“缺失”的相似性数据
如果只是存在缺席数据,我可以想象为每个披萨和每个菜单做一个模型:
其中反映了比萨店的空间结构,教皇只影响他们去的比萨店。
我不确定如何修改此模型以允许教皇对不同菜单项的相似性产生影响,同时还估计对存在缺席的影响。有任何想法吗?
如果有人想玩的话,模拟的比萨数据在这里:https ://gist.github.com/elsherbini/f6bb6d57341ce898092f5cc548d5979b


