它只是数据点的聚合吗?还是以表格格式表示不同元素的数据点,并按不同变量的值排列?它与原始数据有何不同?
“数据集”究竟是什么意思?
根据我的经验,“数据集”(或“数据集”)是一个非正式术语,指的是数据的集合。通常,一个数据集包含多个变量并涉及一个主题;它可能涉及单个样本。
我经常看到交叉验证问题的作者犯的一个错误是使用“数据集”作为“变量”或“向量”的同义词。
我认为维基百科在定义它方面做得不错:
最常见的数据集对应于单个数据库表或单个统计数据矩阵的内容,其中表的每一列代表一个特定变量,每一行对应于相关数据集的给定成员。数据集列出了数据集每个成员的每个变量的值,例如对象的高度和重量。每个值称为一个数据。数据集可以包括对应于行数的一个或多个成员的数据。
术语数据集也可以更宽松地使用,指代密切相关的表集合中的数据,对应于特定的实验或事件。这种类型的一个例子是空间机构使用空间探测器上的仪器进行实验收集的数据集。
在开放数据学科中,数据集是衡量公共开放数据存储库中发布的信息的单位。欧洲开放数据门户聚合了超过 50 万个数据集。在这一领域,已经提出了其他定义,但目前还没有正式的定义。其他一些问题(实时数据源、非关系数据集等)增加了就它达成共识的难度。
如您所见,该术语有些模糊。
我认为您可能需要先定义数据点才能定义数据集:为什么一个原语不需要定义,反之则不然?
至少有两个定义对我有意义:
一个或多个变量(字段、列)的一个或多个观察值(案例、记录、行)。
任何以数据形式存储在所选程序可读的文件中的内容。
表格布局很常见,但我认为它不是任何定义的一部分;自然,如何存储数据实际上很重要。
PS“格式”这个词太重了,对我来说最好避免,除非明确指定。我见过它用于
一般或特定文本或二进制文件格式
数据结构,例如表格或其他
数据存储或变量类型,例如位、整数、实数、字符
显示格式控制表示,例如小数位数的详细信息;十进制、十六进制或二进制显示。
这里已经有一些很好的答案,我认为我无法比 Nick Cox 或 Franck Dernoncourt 更深入地探讨“数据集”是指相关数据的概念集合,还是指这些数据的特定排列,例如表格/矩阵或计算机可读文件。Franck 的摘录提到了边缘情况,例如连续收集的数据或分布在多个表中的数据,如果您假设会有一个简单的定义,那么这些情况值得牢记。(不是所有的统计软件都可以处理,但是很容易想象这样一种情况,数据存储在一个有多个表的关系型数据库中,整个数据库是不是一个单一的“数据集”?)
我要补充的一件事是,从数学意义上讲,数据集通常不是集合!Sensu stricto一个集合要么包含一个对象,要么不包含,但不能包含多个该对象的副本。如果我掷骰子 8 次并得到 1、4、3、5、5、4、6、4,那么掷出的分数就是 {1、3、4、5、6}。请注意,元素可以按任何顺序排列,我只是将它们写成升序,但集合 {5, 4, 1, 6, 3} 在数学上等于它,例如。不过,这不是我们通常所说的数据集!
多重集(或bag )允许重复条目,例如 { 1 , 4, 3, 5, 5, 4, 6, 4} 虽然注意这仍然不包括顺序感,所以等于 {1, 3、4、4、4、5、5、6}。也许“数据集”中的“集”最好被理解为“多集”。此外,如果要保留订单,则可以改用向量: (1, 4, 3, 5, 5, 4, 6, 4) 与 (1, 3, 4, 4, 4, 5、5、6)。排序给了我们一个索引,它可以作为一种标识符——它告诉我们,例如,“哪四个是哪个?” — 并且通常用于以自然时间或地理顺序记录观察结果。当人们看到诸如假设这种索引方案。在集合或多集合的上下文中,什么会或者意思是,由于缺乏排序,我们无法区分“第一”或“第二”元素?
但是向量仅用于记录一个变量-对于多个变量,使用矩阵制表并保留顺序可能更方便。对于更复杂的情况,例如随着时间的推移测量三维体素网格的属性,您甚至可以将数据安排在张量中(参见例如这个问题)。
但请注意,从概念上讲,在大多数简单情况下,多重集可能就足够了,即使它对于实际目的不方便。如果我在掷骰子的同时掷硬币,并且想将两个结果一起记录,那么我可以使用像 {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} 代替矩阵。例如,一个普通的集合是不够的,因为它不会计算 (4, H) 的多重性。