我一直在处理 DNA 序列,并编制了一张包含这些序列特征的表格。我有一个名为 Trimer 的列,其中包含字符串。对于某些 DNA 序列,有一个感兴趣的三聚体,因此该列包含一个 3 个字符串(即“ATG”)。对于表中的其他行,trimer 列有 2 或 3 个感兴趣的 trimer,因此 Trimer 列中有多个字符串(即“ATT、CTG、GAT”)。应该认为来自一个序列的所有三聚体具有相同的权重和重要性。
我知道我无法以这种格式分析我的数据。我想知道是否将 Trimer 列拆分为 3 列,因此如果一个序列只有一个感兴趣的三聚体,那么其他两列中的单元格将保持空白。在进行分析时,我担心这些列将被视为不同的特征,并且权重也会不同。
我也在考虑为同一个 DNA 序列制作多行条目。但自变量受三聚体组合的影响。
非常感谢有关如何更改我的表或创建虚拟变量的任何建议。谢谢!