我正在寻找可用于测试数据分析、机器学习、数据操作等软件的玩具表格数据集的语料库。一些示例属性:
- 奇怪的列名(空字符串、长名称、重复名称、带空格的名称、句点、语法、转义分隔符和标记)
- 非矩形
- 浮点数、inf 文字中的混合科学记数法
- 行空或列空
- 混合文件编码
- 旨在溢出内存缓冲区/导致截断/舍入为 int 的数字和字符串值
- 模糊和无效的日期
- 变音符号、表情符号
我打算自己建立一个语料库,但这里肯定有一些先前的工作吗?
我正在寻找可用于测试数据分析、机器学习、数据操作等软件的玩具表格数据集的语料库。一些示例属性:
我打算自己建立一个语料库,但这里肯定有一些先前的工作吗?