如何在 GlideinWMS 环境中发现/访问各种 SE(存储元素)?

计算科学 网格
2021-12-27 08:46:33

我正在从启用 glidein-wms 的提交主机(例如 osg-xsede)向 Open Science Grid 提交作业。我想在离 osg-xsede 提交主机最近的 SE 上暂存一些数据,然后将数据分发到每个目标集群上可用的各种 SE(或多或少作为缓存),并在期间从工作节点访问每个 SE 上的数据作业提交。

如何将数据分发到 osg-xsede 将提交作业的各种 SE?如何确保我的作业将提交到具有我的数据的 SE 的集群?最后,有没有一种从各种工作节点发现 SE 端点的好方法?有没有关于这个主题的文档?

谢谢!宗一

1个回答

简单的答案是:没有统一的生产方法将数据发送到许多存储元件。甚至没有统一的方法来请求访问存储元素。

有几件事要记住:

  • 并非所有 CE 都有相应的 SE。
  • 并非所有 SE 都有相应的 CE(尽管大多数都有)。
  • 每个 SE 由一组不同的人管理,并使用他们自己的身份验证方法。仅仅因为您可以访问他们的计算,并不意味着您可以访问他们的存储。

据我所知,OSG 上唯一成功的机会存储消费者是 DZero。他们出去并要求一小部分存储元素来托管他们的数据,然后他们编写了一个自定义框架来完成您的要求:维护缓存,数据发现......

总结:所有工具都可用,SRM、GridFTP、GlideinWMS 广告。这是人的问题。您需要在要使用的所有 SE 上请求存储空间。

你最好做 SCEC 和 SBGrid 所做的事情,使用 1-2 个存储元素,并且只使用它们。存储元素有很多带宽可供其他计算元素使用,我不会太担心存储“接近”计算。CMS 和 Atlas 已经发现这并不像曾经想象的那么重要(请参阅 Xrootd 项目、AAA 和 FAX)。