说明
数据分析教程 正在计划编写中,欢迎大家加微信 gairuo123 (备注:数据分析教程) 提供意见、建议、纠错、催更。应大家要求,作者开办数据产品和数据分析培训班,详情 数据产品经理培训 / 数据分析培训。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
数据集(data set 或者 dataset)指数据的集合,一组数据。数据集是专门针对数据可视化和分析要求构建的自助数据模型。数据集可以基于一个表、电子表格或文件。或者,数据集还可以是一个包含多个表的自助数据模型,这些表之间定义了关系。数据集也可以是包含任意子文件夹和文件的存储文件夹。
在线数据集最简单、最常见的格式是电子表格或 CSV 格式——一个由行和列组成的表格。但有些数据集将以其他格式存储,它们不必只是一个文件。有时,数据集可能是包含多个数据表和相关数据的 zip 文件或文件夹。
在表格式的数据表中,一个数据集也就是一个或者多个数据库表格,这个表格中的列代表了特殊的变量,行与列对应。特定的数据集将每一个变量的值都列出来,像是对象的高度或者重量。每一个值都成为一个数据。数据集可以由一系列的文件组成。在开放数据的规定中,数据集是计量被放在公开数据库中信息量的单位。
一个数据集大致由两部分组成。这两个组件是行和列。此外,数据集的一个关键特征是,它的组织方式使每一行包含一个观测值。
几个特点确定了数据集合的属性和结构,包括:变量的数量类型,不同的统计标准像是标准差和峰度。值在数据集中可以是实数,也可以是整数,像是人的身高可以用厘米衡量。也有可能值是一个标定数据,像是人的种族。更广义的说,值可以是任何一种测量标准。对于任意变量,值都是同一个概念。但是,也会有缺失值,这种情况就要说明了。
统计学中,数据集通常来自于观察抽样调查的数据整体,然后每一行都对应每一个数据样本的观察结果。数据集可以由算法生成,去测试某种软件。有一些现代化的统计分析像是SPSS仍然将他们的数据以数据集呈现。如果数据缺失或者有问题的话,可以用估算把空缺值填补上。
有几个经典的数据集被广泛的应用在统计学文献里:
更新时间:2022-01-10 10:31:34 标签:数据集 数据