数据挖掘 - 如何在 python 中创建验证器以及首先要学习的最流行的库/模块是什么 - 吾爱随笔录

我有df一个序列号，每个新记录都会生成一个序列号。序列号与州代码、注册年份和类别代码等其他部分相结合。所以它的格式如下：

| DOR    | Applicant's code |
|:-------|:--------------:|
|1-2-2018| MH2018-PAR-0689|
|1-2-2018| MH2018-PAR-0689|
|2-2-2018| MH2018-PAR-0690|
|2-2-2018| MH2018-OMC-0691|
|1-2-2018| UP2018-OMC-2461|
|1-2-2018| UP2018-FPR-2462|
|3-2-2018| UP2018-PAR-2463|
|1-2-2018| UP2018-OMC-2462|

假设每个州每个月都会生成 20 条这样的记录，并且有 37 个不同的州代码和 8 个不同的类别代码。我想为下个月创建一个所有可能的申请人代码列表，它应该是 37 x 1 x 8 x 20 的可能值。我需要有关如何使用 python 对其进行编码以及我的方法是否正确的指导。

import itertools as it nums = [x for x in range(37)] single = ["_"] abc = list('abcdefgh') codes = [f"123{x}" for x in range(20)] len(abc) * len(nums) * len(codes) # 5920 list(it.product(abc, single, nums, codes)) # len(...) -> 5920

[...] ('a', '_', 0, '1232'), ('a', '_', 0, '1233'), ('a', '_', 0, '1234'), ('a', '_', 0, '1235'), ('a', '_', 0, '1236'), [...] ('b', '_', 12, '12315'), ('b', '_', 12, '12316'), ('b', '_', 12, '12317'), ('b', '_', 12, '12318'), ('b', '_', 12, '12319'), [...]