双聚类入门

机器算法验证 聚类 数据挖掘
2022-03-31 04:43:56

我一直在对双集群进行一些随意的互联网研究。(我已经多次阅读 Wiki 文章。)到目前为止,似乎没有什么定义或标准术语。

  1. 我想知道是否有任何对查找双聚类算法感兴趣的人应该阅读的标准论文或书籍。

  2. 是否可以说该领域的最新技术是什么?我对使用遗传算法找到双聚类的概念很感兴趣,所以我希望能对这种方法发表评论,特别是在其他方法的背景下。

  3. 通常在聚类中,目标是将数据集划分为组,其中每个元素都在某个组中。双聚类算法是否也试图将所有元素放在一个特定的组中?

2个回答

我从来没有直接使用过它,所以我只能分享我的一些论文和关于该技术的一般想法(主要解决你的问题 1 和 3)。

我对双聚类的一般理解主要来自基因研究(2-6),我们试图解释基因簇和个体分组:简而言之,我们正在寻找具有相似基因表达谱的样本组(这可能与例如,疾病状态)促成这种基因分析模式的基因。Pardalos 的幻灯片Biclustering中提供了对生物“大规模”数据集的最新技术水平的调查。请注意,有一个 R 包biclust,用于微阵列数据。

事实上,我最初的想法是将这种方法应用于临床诊断,因为它允许将特征或变量放在多个集群中,这从符号学的角度来看很有趣,因为聚集在一起的症状可以定义综合征,但有些症状可以不同疾病重叠。Cramer et al., Comorbidity: A network perspective (Behavioral and Brain Sciences 2010, 33, 137-193) 中有很好的讨论。

一个有点相关的技术是协同过滤Su 和 Khoshgoftaar 提供了一篇很好的评论(人工智能进展,2009 年):协作过滤技术调查其他参考文献在最后列出。也许频繁项集的分析,如市场篮子问题中的例子,也与它有关,但我从未对此进行过调查。另一个共同聚类的例子是当我们想要同时聚类单词和文档时,例如在文本挖掘中,例如 Dhillon (2001)。使用二分谱图分区对文档和单词进行共聚类过程。KDD,第 269-274 页。

关于一些一般参考,这里有一个不是很详尽的列表,我希望你会觉得有用:

  1. 耆那教,AK(2010)。数据聚类:超越 K-means 的 50 年模式识别字母, 31 , 651–666
  2. Carmona-Saez 等人。(2006 年)。通过非平滑非负矩阵分解对基因表达数据进行双聚类BMC 生物信息学7,78
  3. Prelic 等人。(2006 年)。基因表达数据双聚类方法的系统比较和评估生物信息学22(9),1122-1129。www.tik.ee.ethz.ch/sop/bimax
  4. 迪马乔等人。(2008 年)。通过系统生物学中数据矩阵的优化重新排序进行双聚类:严格的方法和比较研究BMC 生物信息学9,458
  5. 圣玛丽亚等人。(2008 年)。BicOverlapper:双簇可视化工具生物信息学24(9),1212-1213。
  6. Madeira, SC 和 Oliveira, AL (2004) Bicluster 生物数据分析算法:一项调查IEEE Trans。计算。生物学。生物信息。, 1 , 24-45。
  7. Badea, L. (2009)。用于重叠双聚类的广义聚类图IJCAI
  8. Symeonidis, P. (2006)。最近的双聚类协同过滤WEBKDD

这是一个很好的调查/评论:

Stanislav Busygin、Oleg Prokopyev 和 Panos M. Pardalos。 数据挖掘中的双聚类计算机与运筹学,35(9):2964–2987,2008 年 9 月。