在行或列中包含多分量数据

数据挖掘 数据清理 预处理 数据格式
2022-03-01 18:51:10

我一直在处理 DNA 序列,并编制了一张包含这些序列特征的表格。我有一个名为 Trimer 的列,其中包含字符串。对于某些 DNA 序列,有一个感兴趣的三聚体,因此该列包含一个 3 个字符串(即“ATG”)。对于表中的其他行,trimer 列有 2 或 3 个感兴趣的 trimer,因此 Trimer 列中有多个字符串(即“ATT、CTG、GAT”)。应该认为来自一个序列的所有三聚体具有相同的权重和重要性。

我知道我无法以这种格式分析我的数据。我想知道是否将 Trimer 列拆分为 3 列,因此如果一个序列只有一个感兴趣的三聚体,那么其他两列中的单元格将保持空白。在进行分析时,我担心这些列将被视为不同的特征,并且权重也会不同。

我也在考虑为同一个 DNA 序列制作多行条目。但自变量受三聚体组合的影响。

非常感谢有关如何更改我的表或创建虚拟变量的任何建议。谢谢!

1个回答

注意:这更多是帮助您回答问题的评论,如果需要,我将删除它。我不清楚您想对该数据集进行哪种分析,因此很难就数据集的结构和格式提出建议。根据我处理 DNA 字符串及其相关功能的经验,R 尤其是 Bioconductor 包是最好的。这些包已经包含纯粹设计用于处理生物信息学任务的数据结构、函数和操作。基因组对齐可能是一个好的开始。希望这可以帮助!