什么是描述性统计数据?
描述性统计是总结给定数据集的简短信息系数,可以是整个人群的表示或人口样本。描述性统计分解为中心趋势和可变性度量(差异)的度量。中心趋势的度量包括意思是,,,,中位数, 和模式,而可变性措施包括标准偏差,,,,方差,最小和最大变量,峰度, 和偏斜。
关键要点
- 描述性统计数据总结或描述了数据集的特征。
- 描述性统计数据包括三个基本措施类别:中心趋势,可变性(或差异)和频率分布的度量。
- 中央趋势的度量描述了数据集的中心(平均值,中位数,模式)。
- 可变性的度量描述了数据集的分散(方差,标准偏差)。
- 频率分布的度量描述了数据集中数据的发生(count)。
杰西卡是一个
了解描述性统计
描述性统计数据有助于描述和解释特定数据集的特征,通过简短摘要有关数据的措施和量度。描述性统计的最公认类型是中心度量。例如,在几乎所有数学和统计级别上使用的平均值,中值和模式都用于定义和描述数据集。平均值或平均值是通过在数据集中添加所有数字,然后除以集合中的数字数量来计算的。
例如,以下数据集的总和为20:(2,3,4,5,6)。平均值为4(20/5)。数据集的模式是最常出现的值,中位数是位于数据集中间的数字。这是将较高数字与数据集中的较低数字区分开的图。但是,描述性统计的类型较少,仍然非常重要。
人们使用描述性统计数据来重新利用大型数据中的大型数据中的难以理解的定量见解。例如,学生的平均成绩(GPA)提供了对描述性统计数据的很好的理解。 GPA的想法是,它从一系列个别课程等级中获取数据点,并将它们共同提供对学生整体学习成绩的一般理解。学生的个人GPA反映了他们的平均学习表现。
重要的
描述性统计数据,尤其是在医学等领域,通常在视觉上使用散点图,直方图,线图或茎和叶片显示器描绘数据。本文稍后,我们将更多地讨论视觉效果。
描述性统计的类型
所有描述性统计数据都是中心趋势的度量或可变性,也称为分散度量。
中心趋势
中央趋势的度量集中在数据集的平均值或中值上,而可变性的度量集中在数据分散上。这两个措施使用图,表和一般讨论来帮助人们了解分析数据的含义。
中央趋势的度量描述了数据集分布的中心位置。一个人分析分布中每个数据点的频率,并使用均值,中值或模式来描述它,该模式测量了分析数据集的最常见模式。
可变性的度量
可变性的度量(或传播措施)有助于分析分布的分布方式是一组数据。例如,尽管中央趋势的度量可能会给一个人提供数据集的平均值,但它并未描述数据在集合中的分布方式。
因此,尽管数据的平均值可能是100中的65个,但仍可以在1和100处都有数据点。可变性的度量通过描述数据集的形状和传播来有助于传达这一点。范围,四分位数绝对偏差和方差都是可变性度量的示例。
考虑以下数据集:5、19、24、62、91、100。该数据集的范围为95,这是通过从最高(100)中减去数据集中的最低数字(5)来计算得出的。
分配
分布(或频率分布)是指发生数据点的次数。另外,数据点未能发生多少次。考虑以下数据集:男性,男性,女性,女性,女性,其他。该数据的分布可以归类为:
- 数据集中的男性数为2。
- 数据集中的女性人数为3。
- 识别为其他的个体的数量是1。
- 非梅尔人的数量为4。
单变量与双变量
在描述性统计中,单变量数据仅对一个变量进行分析。它用于识别单个特征的特征,不用于分析任何关系或因果关系。
例如,想象一个充满高中生的房间。假设您想在房间里收集个人的平均年龄。该单变量数据仅取决于一个因素:每个人的年龄。通过从每个人那里收集这一信息并除以总人数,您可以确定平均年龄。
另一方面,双变量数据试图通过搜索相关性链接两个变量。收集了两种类型的数据,并共同分析了两种信息之间的关系。由于分析了多个变量,因此该方法也可以称为多变量。
假设上面示例中的每个高中生都需要进行大学评估考试,我们希望看看年龄较大的学生是否比年轻学生更好。除了收集学生的年龄,我们还需要找出每个学生的考试成绩。然后,使用数据分析,我们在数学上或图形上描述了学生年龄和考试成绩之间是否存在关系。
笔记
财务报表的准备和报告是描述性统计数据的一个例子。分析财务信息以对未来做出决定是推论统计。
描述性统计和可视化
描述性统计的一个基本方面是图形表示。有效地可视化数据分布可能非常强大,这是通过多种方式完成的。
直方图是显示数值数据分布的工具。他们将数据分为垃圾箱或间隔,并通过不同高度的条形插入每个垃圾箱的数据点的频率或计数。直方图有助于确定数据的分布形状,中心趋势和数据的可变性。
另一个可视化是盒子图。框图,也称为盒子图,通过突出关键摘要统计数据(包括中位数(盒子内的中线),四分位数(盒子的边缘)以及潜在的异常值(点点外部或“外部”或“ Whiskers”),提供了数据分布的简明摘要。拳击手在视觉上描述了数据的传播和偏度,对于比较不同组或变量的分布特别有用。
描述性统计和离群值
每当讨论描述性统计数据时,重要的是要注意异常值。离群值是与数据集中其他观察结果显着不同的数据点。这些可能是数据中的错误,异常或罕见事件。
检测和管理离群值是描述性统计数据的一步,以确保准确可靠的数据分析。要识别离群值,您可以使用图形技术(例如盒子图或散点图)或统计方法(例如Z得分或IQR方法)。这些方法有助于查明观察结果,这些观察值大大偏离了数据的整体模式。
异常值的存在可能会对描述性统计数据,偏斜结果和影响数据的解释产生显着影响。离群值可能会不成比例地影响中心趋势的度量,例如均值,将其朝向其极端价值观。例如,(1、1、1、997)的数据集为250,尽管这几乎不能代表数据集的代表。这种失真会导致关于数据集典型行为的误导性结论。
根据上下文,通常可以通过删除离群值来治疗(如果它们确实是错误的或无关的)。另外,离群值可能拥有重要的信息,应保留其可能证明的价值。当您分析数据时,请考虑离群值可以贡献的相关性,以及仅从您的描述性统计计算中删除这些数据点是否更有意义。
描述性统计与推论统计
描述性统计数据与推论统计数据不同,这些统计数据集用于做出决策或将一个数据集应用于另一个数据集的特征。
想象一下,公司出售辣酱的另一个例子。该公司收集数据,例如销售量,平均购买数量交易,以及一周中每天的平均销售。所有这些信息都是描述性的,因为它讲述了过去实际发生的事情的故事。在这种情况下,它并非不仅仅是信息性。
现在,假设该公司想推出新的辣酱。它收集了上面的相同销售数据,但它使用信息来预测新的辣酱的销售额。使用描述性统计数据并将特征应用于不同数据集的行为使数据集推断统计。我们不再简单地总结数据;我们正在使用它来预测有关完全不同的数据(在这种情况下是新的辣酱产品)的情况。
什么是描述性统计信息?
描述性统计是一种通过生成有关数据样本的摘要来描述数据集的特征的方法。例如,人口普查可能包括有关特定城市中男女比例的描述性统计数据。
描述性统计的示例是什么?
例如,在重演美国职棒大联盟赛季时,描述性统计数据可能包括球队击球平均值,每队允许的跑步次数以及平均胜利。
描述性统计的主要目的是什么?
描述性统计数据的主要目的是提供有关数据集的信息。在上面的示例中,有数十支棒球队,数百名球员和数千场比赛。描述性统计数据将大量数据汇总到有用的信息中。
描述性统计的类型是什么?
描述性统计的三种主要类型是频率分布,中心趋势和数据集的可变性。频率分布记录数据发生的频率,中央趋势记录了数据的中心分布点以及数据集的可变性记录其分散程度。
描述性统计数据可用于做出推论或预测吗?
从技术上讲,描述性统计仅有助于了解历史数据属性。推论统计数据(统计的单独分支)用于了解变量如何在数据集中相互交互,并可能预测将来可能发生的情况。
底线
描述性统计数据是指描述数据集的发现的分析,摘要和沟通。通常对于决策没有用,描述性统计数据仍具有说明一组信息的高级摘要,例如均值,中位数,模式,差异,范围和信息计数。