用于显微镜图像分析的云解决方案

计算科学 图像处理 数据管理 云计算
2021-12-13 03:39:55

在我们的研究机构,我们经常进行所谓的 PALM(光激活定位显微镜)或 STORM(随机光学重建显微镜)实验。

您可以在上面的链接中阅读有关它的所有信息,但简而言之,它归结为:

  1. 普通光学显微镜受衍射限制。由于我们使用的波长和光学器件的性质,我们只能解析大于 200-300 nm 的特征。
  2. 我们可以通过寻找方法来观察样本中的点发射器并使用已知的“点扩散函数”来以亚衍射极限精度拟合这些发射器的位置来规避这种分辨率限制。
  3. 观察样本中的许多这样的点发射器使我们能够以增强的分辨率重建整个样本的图像。

实际上,我们通过使用产生 16 位 512*512 像素图像的 EM-CCD 相机记录长(50k 帧)样本“电影”来实现所有这些。因此,这些数据集变得相当大,特别是如果我们每天/每周进行大量实验。

接下来,我们在这些数据集上运行已建立的拟合例程,例如此处实现的那些。

目前,我们在我所说的“离线模式”中完成所有这些工作。我们记录这些数据集,通常每周数十或数百次。将它们存储在 USB 硬盘驱动器上并运行上述参考分析。

这会导致问题:

  1. 每年,我们都会在磁盘上投资数千欧元,因为我们需要存储所有博学的东西,并且可能希望保留它以备将来参考。但是,无法正确索引和管理这些数据。每个人都使用自己的方案来命名/文件夹/...
  2. 磁盘可能会丢失
  3. ...

最近阅读了很多关于“云计算”的内容,我想尝试为这个问题找到更好的解决方案。我认为应该可以:

  1. 在每台测量计算机上安装某种类似于 Dropbox 的客户端。
  2. 将所有原始图像堆栈上传到云存储设施
  3. 将云存储作为虚拟磁盘暴露给不错的软件,例如开放式显微镜环境,它已经提供了索引/注释您的数据类型的解决方案
  4. 利用云系统的计算能力来加快分析速度

在这方面,我联系了几家云提供商(MS Azure、谷歌、亚马逊),但根据我的经验,很难联系到知识渊博的人来首先“获得”我们的预期应用程序,然后再提供可行的潜在解决方案。

此外,虽然我掌握了现代云平台中涉及的大部分概念,但我缺乏时间和深入的知识来推出自己的解决方案。

尽管如此,我无法想象我们会是第一个遇到这个问题的人。

有人在这方面有想法吗?

免责声明:可能这个问题超出了这个特定 SA 站点的范围,但我似乎没有找到另一个更适合的问题(或者我错过了它)。

2个回答

在这个网站上找到另一个显微镜师真是太棒了。欢迎!

简短的回答:

市场上没有可以为您解决这个问题的灵丹妙药。

更长的答案:

把一些商业上可用的产品放在一起可以让你走得很远。

在我的工作中,我们每周拍摄约张图像,这使我们处于类似的问题规模空间,所以我想先以一些快速要点的形式分享我的经验,然后更全面地描述我们为处理这一切而创建的内容。4096×25000

  • 尽早压缩。投入时间(无损)压缩图像将节省网络 IO、存储成本、传输时间,并且几乎总是可以加快分析速度。考虑到每张图像的熵通常较低,PALM 和 STORM 是很好的候选者。我们构建了一个小型集群来完成这一切。使用 32 个内核,它的成本仍然不到新 STORM 设置的 2% :)
  • 连续存档/上传。我们使用 s3 进行存储,并有一个恒定的后台线程上传图像。您上传到 AWS 的能力将仅受本地连接的限制。
  • 使用 s3 或类似的竞争产品。除非您拥有某种形式的免费/补贴 IT、电力或硬盘驱动器,否则您真的无法超过这项服务的存储成本。我们为每个样本使用 s3 存储桶,并最终将它们迁移到 Glacier 存储以降低已分析数据的成本。
  • 利用 Cloud IO 魔法。从 AWS 拉取单个帧的任何特定计算机通常会获得 5-15MB/s,但是拉取一个帧的 500 台计算机每台获得相同的速率,总计以 GB/s 为单位。这对于并行分析来说非常强大。 这是一个以显微镜为重点的精彩视频。

这是我为一些文档绘制的系统图: 看看我们的内部结构

简而言之,我们有许多显微镜为一个压缩集群提供数据,所有这些最终都会收敛到一个 IO 端点,该端点与 s3 同步到基于样本的存储桶中。这个堆栈还不是操作系统,但我可以很容易地以有限的方式与任何感兴趣的人分享它。

这是一个专门的解决方案,但其中的任何一部分都可能被几个带有gnu parallelimage-magics3fs和合理大小的计算集群的 shell 脚本杀死。

如果您有一个支持 HPC 设施,所有这些相同的东西都会更便宜:)

根据我们上面的讨论,我建议以下内容:找到您当地、区域或国家的超级计算、HPC 或研究计算机构,了解他们对此类数据存储和计算活动的支持。这种工作负载是“大数据”涵盖的众多事物之一,而我所知道的所有超级计算中心都在为支持这些事物而努力。他们的资助机构也在积极推动他们这样做。

在许多情况下,与商业云选项相比,它们将能够免费或以大大降低的成本支持您的工作负载,因为它们在大学、地区政府或国家政府层面获得了补贴。相比之下,商业云的多 TB(听起来像)数据摄取或静态存储成本是天文数字,而且它们通常没有支持科学的任务。