对组合数据问题建模的最佳方法是什么?
组合数据是指每个示例或样本是一个总和为 1(或 100%)的向量。就我而言,我对岩石中矿物质的成分感兴趣,我有传感器告诉我矿物质的总和,但不告诉我构成总和的成分。
例如,假设我有两种矿物质, 和 ,由 3 个元素(如铜和元素周期表中的其他元素)组成,它们形成一个长度为 3 的向量:
m1 = [0.1, 0.3, 0.6]
m2 = [0.6, 0.2, 0.2]
如果一块石头有 25% 和 75% ,传感器读数产生两种矿物的总和(如下图左下角的子图所示):
我想知道如何建模和解决将组合物分解为其基础组件的问题,其中元素的总和被归一化为 100%(例如 具有相同的成分 )。
此外,我的例子很简单。实际上,一个成分可以包含超过 2 种矿物质(最多 3000 种),每种矿物质由 118 种元素组成,而不仅仅是 3 种(元素周期表中的所有元素 - 尽管许多元素将为零)。假定矿物的元素组成是已知的(定义 和 在示例中)。此外,传感器读数是嘈杂的——假设观察到的成分的每个元素都具有高斯噪声。
