我正在开发一种分布式算法,为了提高效率,它既依赖于磁盘数量(每台机器一个),也依赖于有效的负载平衡策略。有了更多的磁盘,我们就可以减少花在 I/O 上的时间;并且通过有效的负载平衡策略,我们可以在没有太多数据复制开销的情况下分配任务。
有许多关于处理相同问题的文献的研究,并且每个研究都运行不同的实验来评估他们的提议。一些实验是特定于所提出的策略的,而其他一些实验,如弱扩展(可扩展性)和强扩展(加速),对所有工作都是通用的。
问题是实验通常在完全不同的基础设施(磁盘、处理器、# 机器、网络)上执行,并且根据评估的内容,它可能会引发错误/不公平的比较。例如,如果我的应用程序在 10 台具有 Infiniband 连接的机器上运行,我可能会获得 100% 的加速,而如果我的连接是以太网,我可以获得相同甚至更差的结果。
那么,如何诚实地比较不同的实验来指出效率提升呢?