我的问题涉及如何能够断言“改进的”进化算法确实得到了改进(至少从统计学的角度来看),而不仅仅是随机运气(考虑到这些算法的随机性,这是一个问题)。
假设我正在处理一个标准 GA(之前)和一个“改进的”GA(之后)。我有一套 8 个测试问题。
我重复运行这两种算法,例如 10 次(?)通过 8 个测试问题中的每一个,并记录需要多少代才能提出解决方案。我将从相同的初始随机种群开始(使用相同的种子)。
我是否会使用配对 t 检验来验证每个测试问题的平均值之间的任何差异(希望是改进)是否具有统计学意义?我应该为每个测试/对运行这些算法超过 10 次吗?
我应该注意哪些陷阱?我假设我可以将这种方法用于任何(进化)算法比较。
还是我真的走错了路?我基本上是在寻找一种方法来比较进化算法的两种实现,并报告一个与另一个相比的工作情况。
谢谢!