在上一个问题中,我询问了用于编辑CSV 文件的工具。
Gavin 链接到Duncan Murdoch对 R 帮助的评论,该评论 暗示数据交换格式是一种比 CSV 更可靠的数据存储方式。
对于某些应用程序,需要一个专用的数据库管理系统。然而,对于小规模的数据分析项目,更轻量级的东西似乎更合适。
考虑以下评估文件格式的标准:
- 可靠:输入的数据应与输入的数据保持一致;数据应该在不同的软件中一致地打开;
- 简单:如果文件格式易于理解并且理想情况下可以使用简单的文本编辑器阅读,那就太好了;编写一个简单的程序来读取和写入格式应该很容易。
- open : 格式应该是开放的
- 互操作性:文件格式应该被许多系统支持
我发现制表符和逗号分隔值格式在可靠性标准上失败。虽然我想我可以责怪导入和导出程序而不是文件格式。我经常发现自己不得不对选项进行一些调整,
read.table
以防止某些奇怪的字符破坏数据框的加载。
问题
- 哪种文件格式最能满足这些需求?
- 数据交换格式是更好的选择吗?还是它有自己的问题?
- 还有其他更好的格式吗?
- 我是否不公平地评估 TSV 和 CSV?是否有一套简单的技巧来处理这些文件,使文件格式更可靠?