我有一个数据集,其中每条记录都是一个带有标签的 json 文档和一组信号。每条记录的信号都会有所不同:
{
"label":"bad",
"id": "0009",
"signals":["high_debt_ratio", "no_job"]
},
{
"label":"good",
"id": "0002",
"signals":["high_debt_ratio", "great_credit", "no_id_match"]
},
{
"label":"good",
"id": "0003",
"signals":["low_debt_ratio", "great_credit"]
},
{
"label":"bad",
"id": "0001",
"signals":["high_risk_loc", high_debt_ratio", "no_job", "no_id_match"]
}
我想将其转换为如下所示的矩阵:
| ID | 标签 | high_risk_loc | 高负债率 | 没工作 | 伟大的信用 | no_id_match | 低债务比率 |
|---|---|---|---|---|---|---|---|
| 0009 | 坏的 | 错误的 | 真的 | 真的 | 错误的 | 错误的 | 错误的 |
| 0002 | 好的 | 错误的 | 真的 | 错误的 | 真的 | 真的 | 错误的 |
| 0003 | 好的 | 错误的 | 错误的 | 错误的 | 真的 | 错误的 | 真的 |
| 0001 | 坏的 | 真的 | 真的 | 真的 | 错误的 | 真的 | 错误的 |
我创建了一个函数,但这似乎是一件很常见的事情。是否有一个 python 库(pandas、scikit 等)可以为您执行此操作?我宁愿使用包装中的东西,但我不确定要搜索什么。
