什麼是描述性統計數據?
描述性統計是總結給定數據集的簡短信息係數,可以是整個人群的表示或人口樣本。描述性統計分解為中心趨勢和可變性度量(差異)的度量。中心趨勢的度量包括意思是,,,,中位數, 和模式,而可變性措施包括標準偏差,,,,方差,最小和最大變量,峰度, 和偏斜。
關鍵要點
- 描述性統計數據總結或描述了數據集的特徵。
- 描述性統計數據包括三個基本措施類別:中心趨勢,可變性(或差異)和頻率分佈的度量。
- 中央趨勢的度量描述了數據集的中心(平均值,中位數,模式)。
- 可變性的度量描述了數據集的分散(方差,標準偏差)。
- 頻率分佈的度量描述了數據集中數據的發生(count)。
傑西卡是一個
了解描述性統計
描述性統計數據有助於描述和解釋特定數據集的特徵,通過簡短摘要有關數據的措施和量度。描述性統計的最公認類型是中心度量。例如,在幾乎所有數學和統計級別上使用的平均值,中值和模式都用於定義和描述數據集。平均值或平均值是通過在數據集中添加所有數字,然後除以集合中的數字數量來計算的。
例如,以下數據集的總和為20:(2,3,4,5,6)。平均值為4(20/5)。數據集的模式是最常出現的值,中位數是位於數據集中間的數字。這是將較高數字與數據集中的較低數字區分開的圖。但是,描述性統計的類型較少,仍然非常重要。
人們使用描述性統計數據來重新利用大型數據中的大型數據中的難以理解的定量見解。例如,學生的平均成績(GPA)提供了對描述性統計數據的很好的理解。 GPA的想法是,它從一系列個別課程等級中獲取數據點,並將它們共同提供對學生整體學習成績的一般理解。學生的個人GPA反映了他們的平均學習表現。
重要的
描述性統計數據,尤其是在醫學等領域,通常在視覺上使用散點圖,直方圖,線圖或莖和葉片顯示器描繪數據。本文稍後,我們將更多地討論視覺效果。
描述性統計的類型
所有描述性統計數據都是中心趨勢的度量或可變性,也稱為分散度量。
中心趨勢
中央趨勢的度量集中在數據集的平均值或中值上,而可變性的度量集中在數據分散上。這兩個措施使用圖,表和一般討論來幫助人們了解分析數據的含義。
中央趨勢的度量描述了數據集分佈的中心位置。一個人分析分佈中每個數據點的頻率,並使用均值,中值或模式來描述它,該模式測量了分析數據集的最常見模式。
可變性的度量
可變性的度量(或傳播措施)有助於分析分佈的分佈方式是一組數據。例如,儘管中央趨勢的度量可能會給一個人提供數據集的平均值,但它並未描述數據在集合中的分佈方式。
因此,儘管數據的平均值可能是100中的65個,但仍可以在1和100處都有數據點。可變性的度量通過描述數據集的形狀和傳播來有助於傳達這一點。範圍,四分位數絕對偏差和方差都是可變性度量的示例。
考慮以下數據集:5、19、24、62、91、100。該數據集的範圍為95,這是通過從最高(100)中減去數據集中的最低數字(5)來計算得出的。
分配
分佈(或頻率分佈)是指發生數據點的次數。另外,數據點未能發生多少次。考慮以下數據集:男性,男性,女性,女性,女性,其他。該數據的分佈可以歸類為:
- 數據集中的男性數為2。
- 數據集中的女性人數為3。
- 識別為其他的個體的數量是1。
- 非梅爾人的數量為4。
單變量與雙變量
在描述性統計中,單變量數據僅對一個變量進行分析。它用於識別單個特徵的特徵,不用於分析任何關係或因果關係。
例如,想像一個充滿高中生的房間。假設您想在房間裡收集個人的平均年齡。該單變量數據僅取決於一個因素:每個人的年齡。通過從每個人那裡收集這一信息並除以總人數,您可以確定平均年齡。
另一方面,雙變量數據試圖通過搜索相關性鏈接兩個變量。收集了兩種類型的數據,並共同分析了兩種信息之間的關係。由於分析了多個變量,因此該方法也可以稱為多變量。
假設上面示例中的每個高中生都需要進行大學評估考試,我們希望看看年齡較大的學生是否比年輕學生更好。除了收集學生的年齡,我們還需要找出每個學生的考試成績。然後,使用數據分析,我們在數學上或圖形上描述了學生年齡和考試成績之間是否存在關係。
筆記
財務報表的準備和報告是描述性統計數據的一個例子。分析財務信息以對未來做出決定是推論統計。
描述性統計和可視化
描述性統計的一個基本方面是圖形表示。有效地可視化數據分佈可能非常強大,這是通過多種方式完成的。
直方圖是顯示數值數據分佈的工具。他們將數據分為垃圾箱或間隔,並通過不同高度的條形插入每個垃圾箱的數據點的頻率或計數。直方圖有助於確定數據的分佈形狀,中心趨勢和數據的可變性。
另一個可視化是盒子圖。框圖,也稱為盒子圖,通過突出關鍵摘要統計數據(包括中位數(盒子內的中線),四分位數(盒子的邊緣)以及潛在的異常值(點點外部或“外部”或“ Whiskers”),提供了數據分佈的簡明摘要。拳擊手在視覺上描述了數據的傳播和偏度,對於比較不同組或變量的分佈特別有用。
描述性統計和離群值
每當討論描述性統計數據時,重要的是要注意異常值。離群值是與數據集中其他觀察結果顯著不同的數據點。這些可能是數據中的錯誤,異常或罕見事件。
檢測和管理離群值是描述性統計數據的一步,以確保准確可靠的數據分析。要識別離群值,您可以使用圖形技術(例如盒子圖或散點圖)或統計方法(例如Z得分或IQR方法)。這些方法有助於查明觀察結果,這些觀察值大大偏離了數據的整體模式。
異常值的存在可能會對描述性統計數據,偏斜結果和影響數據的解釋產生顯著影響。離群值可能會不成比例地影響中心趨勢的度量,例如均值,將其朝向其極端價值觀。例如,(1、1、1、997)的數據集為250,儘管這幾乎不能代表數據集的代表。這種失真會導致關於數據集典型行為的誤導性結論。
根據上下文,通常可以通過刪除離群值來治療(如果它們確實是錯誤的或無關的)。另外,離群值可能擁有重要的信息,應保留其可能證明的價值。當您分析數據時,請考慮離群值可以貢獻的相關性,以及僅從您的描述性統計計算中刪除這些數據點是否更有意義。
描述性統計與推論統計
描述性統計數據與推論統計數據不同,這些統計數據集用於做出決策或將一個數據集應用於另一個數據集的特徵。
想像一下,公司出售辣醬的另一個例子。該公司收集數據,例如銷售量,平均購買數量交易,以及一周中每天的平均銷售。所有這些信息都是描述性的,因為它講述了過去實際發生的事情的故事。在這種情況下,它並非不僅僅是信息性。
現在,假設該公司想推出新的辣醬。它收集了上面的相同銷售數據,但它使用信息來預測新的辣醬的銷售額。使用描述性統計數據並將特徵應用於不同數據集的行為使數據集推斷統計。我們不再簡單地總結數據;我們正在使用它來預測有關完全不同的數據(在這種情況下是新的辣醬產品)的情況。
什麼是描述性統計信息?
描述性統計是一種通過生成有關數據樣本的摘要來描述數據集的特徵的方法。例如,人口普查可能包括有關特定城市中男女比例的描述性統計數據。
描述性統計的示例是什麼?
例如,在重演美國職棒大聯盟賽季時,描述性統計數據可能包括球隊擊球平均值,每隊允許的跑步次數以及平均勝利。
描述性統計的主要目的是什麼?
描述性統計數據的主要目的是提供有關數據集的信息。在上面的示例中,有數十支棒球隊,數百名球員和數千場比賽。描述性統計數據將大量數據匯總到有用的信息中。
描述性統計的類型是什麼?
描述性統計的三種主要類型是頻率分佈,中心趨勢和數據集的可變性。頻率分佈記錄數據發生的頻率,中央趨勢記錄了數據的中心分佈點以及數據集的可變性記錄其分散程度。
描述性統計數據可用於做出推論或預測嗎?
從技術上講,描述性統計僅有助於了解歷史數據屬性。推論統計數據(統計的單獨分支)用於了解變量如何在數據集中相互交互,並可能預測將來可能發生的情況。
底線
描述性統計數據是指描述數據集的發現的分析,摘要和溝通。通常對於決策沒有用,描述性統計數據仍具有說明一組信息的高級摘要,例如均值,中位數,模式,差異,範圍和信息計數。