我遇到了以下问题,我侦察是相当典型的。
我有一些大数据,比如几百万行。我对其进行了一些重要的分析,例如一个由几个子查询组成的 SQL 查询。我得到了一些结果,例如,属性 X 随着时间的推移而增加。
现在,有两种可能的情况会导致这种情况:
- X 确实随着时间的推移而增加
- 我的分析中有一个错误
我如何测试第一次发生,而不是第二次?一个逐步调试器,即使存在,也无济于事,因为中间结果仍然可能包含数百万行。
我唯一能想到的就是以某种方式生成一个带有我想要测试的属性的小型合成数据集,并作为单元测试对其进行分析。有没有工具可以做到这一点?特别是但不限于 SQL。