是否有专门为查找数据科学软件中的错误而设计的玩具数据集?

数据挖掘 CSV 软件开发
2022-03-05 12:16:32

我正在寻找可用于测试数据分析、机器学习、数据操作等软件的玩具表格数据集的语料库。一些示例属性:

  • 奇怪的列名(空字符串、长名称、重复名称、带空格的名称、句点、语法、转义分隔符和标记)
  • 非矩形
  • 浮点数、inf 文字中的混合科学记数法
  • 行空或列空
  • 混合文件编码
  • 旨在溢出内存缓冲区/导致截断/舍入为 int 的数字和字符串值
  • 模糊和无效的日期
  • 变音符号、表情符号

我打算自己建立一个语料库,但这里肯定有一些先前的工作吗?

0个回答
没有发现任何回复~