tl;博士我推荐这个,但只是等待广泛的视觉数据探索。
你的问题是单变量分类
我正要写一篇监督多变量技术的概述,但后来我意识到我宁愿重铸你的问题。
给定 =(电荷、疏水性、β-折叠倾向,...)和 =(pH、离子强度、糖、NaCl 浓度等),预测(如果稳定则 = 1,否则为 0)。XYZ
的多个值的可能性,现在您有一个“简单”的单变量预测问题。您提到了逻辑回归和神经网络,这些将是很好的基线方法尝试......如果您有任何的示例。YXZ=0
你的问题是无监督学习
那么如果你只有的例子呢?您无法训练分类器。你所能做的就是假设你的数据集中的点有一些可概括的东西——一些关系集在所有蛋白质及其稳定条件下都成立。例如,也许糖浓度减去盐浓度总是等于反疏水性(当然,我只是在胡说八道)。揭示数据结构的常用工具包括:Z=1
- 自动编码器:一个神经网络,你的数据作为输入和输出,中间是一个瓶颈层。
- 主成分分析或主曲线
- 图形套索及其表亲,将观察到的相关结构转换为具有有限数量边的网络。我在下面更多地谈论我最喜欢的选项。
缺失数据概览
关于您丢失的数据,了解它是由什么引起的会很有帮助。在临床试验中,患者可能会因副作用而退出,从而使结果出现不可挽回的偏差。您提到了资源限制,这意味着您的缺失模式可能与缺失值无关。(如果疏水蛋白测量其余部分的成本不高或不高,则尤其如此,依此类推。)如果这是您愿意做出的飞跃,那么您不仅可以填补缺失的部分数据; 您可以合理地量化模型参数中的不确定性。
一种方法是多重插补:
- 为缺失数据制定概率模型
- 模拟该模型中缺失的数据
- 像没有数据丢失一样完成你的任务
- 重复多次,并通过鲁宾公式(幻灯片 7)组合得出的估计值。
此页面包含大量有关缺失数据和多重插补的信息。但是,如果您只是想要一个点估计,请继续阅读。
缺失数据的特定模型
在这种情况下,我可能会尝试 rank回归模型r
E[M]=RL
,
其中是(行,列),是未知的 x矩阵,是未知的 x矩阵,是期望算子。(替换为您喜欢的似然函数或数据变换。)尽管缺少条目,您仍可以拟合此模型:以简单的平方损失为例,最小化(其中是观察到的条目集)。您可以在更新和更新M[X|Y]npRnrLrpE[]∑i,j∈Ω(Mij−∑kRikLkj)
ΩRL,所以每次更新只是一个回归问题,你可能会做得很好。
与低秩不同,另一种选择是使用基于稀疏逆协方差矩阵的灵活分布。(为什么是逆协方差?它是马尔可夫随机场表示。)这个解决方案似乎可以同时满足您的所有需求,所以我在 tl;dr. 中链接到它。
做尽职调查
最后,请不要在没有先可视化和探索数据的情况下将复杂的模型拟合到您的数据中。我建议通过以某种方式绘制它们来仔细检查所有成对关系(连续的散点图、分类的列联表和混合的并排箱线图)。这可能会揭示需要调查的异常值或物理上不可信的趋势。这可能表明我的答案偏离了轨道或需要修改:也许您最终会得到几个行为非常不同的蛋白质簇,因此您决定分别对它们进行建模。或许数据真的很丑,除了“超酸超咸的东西都不稳定”,没什么可看的。我很想知道你发现了什么。