问题:我想知道从数据库中执行有效抽样的方法。数据库的大小与250K文本文档有关,在这种情况下,每个文本文档都与一些专业(电气工程、医学等)相关。到目前为止,我已经看到了一些简单的技术,例如简单随机抽样和分层抽样;但是,我认为应用它们不是一个好主意,原因如下:
例如,在简单随机样本的情况下,数据库中有一些文档涉及海军工程或艺术等专业。因此,我认为他们不太可能使用这种方法进行抽样,但我希望尽可能多地收集每个专业的样本。
在分层抽样的情况下,大多数文件都讨论了多个专业,因此我无法将数据库划分为子组,因为它们不会相互排斥,至少对于每个专业都是子组的情况。
最后,由于昂贵的计算成本处理,我无法使用整个数据库。因此,我非常感谢有关其他采样方法的任何建议。感谢您提前提供任何帮助。