1. 我的目的

我正在尝试构建具有多个输入和多个输出的模型，如下所示：

我不确定是否需要先将 xi 集成到 X 中，然后将 yi 集成到 Y 中，以便使模型更容易，如下所示：

2. 训练数据的特征

训练数据有几个特点：

由于缺乏资源，不同条目存在一些缺失因素。例如，X1 可能没有 x3 和 x5，Y1 可能没有 y4 和 y5，X2 可能没有 x1 和 x2，Y2 可能没有 y4。
X=g(Y) 可能有多个投影。例如

当然，我想尽量减少投影的数量，以便建立一个更通用的模型。

3. 我的问题

那么请问我该如何解决这个问题？

我觉得回归（例如多项式回归）和分类（例如逻辑回归、神经网络）模型对每个条目只需要一个单一的输出。

我也不认为 PLS 是正确的答案，因为 PLS 本质上将多个 x 变量建模为单个 yi，而不是将 Y=Σyi 视为一个整体。

似乎它是关于建模多变量（不是多变量）回归。但是我该如何处理缺失的因素呢？

1个回答

tl;博士我推荐这个，但只是等待广泛的视觉数据探索。

你的问题是单变量分类

我正要写一篇监督多变量技术的概述，但后来我意识到我宁愿重铸你的问题。

给定 =（电荷、疏水性、β-折叠倾向，...）和 =（pH、离子强度、糖、NaCl 浓度等），预测（如果稳定则 = 1，否则为 0）。 $X$ $Y$ $Z$

的多个值的可能性，现在您有一个“简单”的单变量预测问题。您提到了逻辑回归和神经网络，这些将是很好的基线方法尝试......如果您有任何的示例。 $Y$ $X$ $Z=0$

你的问题是无监督学习

那么如果你只有的例子呢？您无法训练分类器。你所能做的就是假设你的数据集中的点有一些可概括的东西——一些关系集在所有蛋白质及其稳定条件下都成立。例如，也许糖浓度减去盐浓度总是等于反疏水性（当然，我只是在胡说八道）。揭示数据结构的常用工具包括： $Z=1$

自动编码器：一个神经网络，你的数据作为输入和输出，中间是一个瓶颈层。
主成分分析或主曲线
图形套索及其表亲，将观察到的相关结构转换为具有有限数量边的网络。我在下面更多地谈论我最喜欢的选项。

缺失数据概览

关于您丢失的数据，了解它是由什么引起的会很有帮助。在临床试验中，患者可能会因副作用而退出，从而使结果出现不可挽回的偏差。您提到了资源限制，这意味着您的缺失模式可能与缺失值无关。（如果疏水蛋白测量其余部分的成本不高或不高，则尤其如此，依此类推。）如果这是您愿意做出的飞跃，那么您不仅可以填补缺失的部分数据; 您可以合理地量化模型参数中的不确定性。

一种方法是多重插补：

为缺失数据制定概率模型
模拟该模型中缺失的数据
像没有数据丢失一样完成你的任务
重复多次，并通过鲁宾公式（幻灯片 7）组合得出的估计值。

此页面包含大量有关缺失数据和多重插补的信息。但是，如果您只是想要一个点估计，请继续阅读。

缺失数据的特定模型

在这种情况下，我可能会尝试 rank回归模型 $r$

E [M] = R L

$E[M] = RL$ ,

其中是（行，列），是未知的 x矩阵，是未知的 x矩阵，是期望算子。（替换为您喜欢的似然函数或数据变换。）尽管缺少条目，您仍可以拟合此模型：以简单的平方损失为例，最小化（其中是观察到的条目集）。您可以在更新和更新 $M$ $[X|Y]$ $n$ $p$ $R$ $n$ $r$ $L$ $r$ $p$ $E[]$

\sum_{i, j \in Ω} (M_{i j} - \sum_{k} R_{i k} L_{k j})

$\sum_{i,j \in \Omega} (M_{ij} - \sum_k R_{ik}L_{kj})$

Ω

$\Omega$

R

$R$

L

$L$ ，所以每次更新只是一个回归问题，你可能会做得很好。

与低秩不同，另一种选择是使用基于稀疏逆协方差矩阵的灵活分布。（为什么是逆协方差？它是马尔可夫随机场表示。）这个解决方案似乎可以同时满足您的所有需求，所以我在 tl;dr. 中链接到它。

做尽职调查

最后，请不要在没有先可视化和探索数据的情况下将复杂的模型拟合到您的数据中。我建议通过以某种方式绘制它们来仔细检查所有成对关系（连续的散点图、分类的列联表和混合的并排箱线图）。这可能会揭示需要调查的异常值或物理上不可信的趋势。这可能表明我的答案偏离了轨道或需要修改：也许您最终会得到几个行为非常不同的蛋白质簇，因此您决定分别对它们进行建模。或许数据真的很丑，除了“超酸超咸的东西都不稳定”，没什么可看的。我很想知道你发现了什么。

其它你可能感兴趣的问题

上一篇哪种 Bootstrap 方法最受青睐？下一篇时间序列分析中 BoxCox 变换的 Lambda 值