什麼是樣本?
術語示例是指較大的較大組的較小,易於管理的版本。它是包含較大特徵的子集人口。當人口大小太大而不包括所有可能的成員或觀察結果時,將樣品用於統計測試。樣本應代表整個人群,並且不反映對特定屬性的任何偏見。
有幾個採樣研究人員和統計學家使用的技術都有好處和缺點。隨著人工智能的出現及其培訓的數據,採樣問題引起了主流的關注。現在,辯論是關於為訓練AI的數據中進行的抽樣是否偏向於人口的某些部分,某些參與者,某些信息,某些想法,某些地區等等。
關鍵要點
- 樣本在統計數據中用作較大人群的分析子集。
- 使用樣本可以使研究人員使用更易於管理的數據進行及時進行研究。
- 如果它們足夠大,則隨機繪製的樣品不會有太多偏見,但是實現這樣的樣本可能很昂貴且耗時。
- 在簡單的隨機抽樣中,人口中的每個實體都是相同的,而分層隨機抽樣將整體人群分為較小的群體。
了解樣品
人群是給定組或環境中包含的觀察總數(即個人,動物,項目,數據等)。樣本是整個組的一部分,部分或部分,並且是該人群的一部分。樣品用於進行研究的各種環境中。科學家營銷人員政府機構,經濟學家和研究小組是使用樣本進行研究和測量的人。
將整個人群用於研究伴隨著挑戰。研究人員可能會在獲得整個人群方面遇到問題。而且,由於某些研究的性質,研究人員可能很難及時獲得所需的結果。這就是為什麼使用樣品的原因。使用較小的組來表示整個人群仍然可以產生有效的結果,同時減少時間和資源。
樣本必須類似於更廣泛的人群,以進行準確的推論或預測。樣本中的所有參與者都應具有相同的特徵和素質。因此,如果這項研究是關於男性大學新生的,那麼樣本應該是適合此描述的男性的一小部分。同樣,如果研究小組對50歲以上的單身女性的睡眠模式進行研究,則該樣本應僅包括女性人群。
特殊考慮
考慮一個學術研究人員的團隊,他們想知道有多少學生在不到40個小時的時間裡學習CFA考試並仍然通過。由於每年有超過200,000人參加全球考試,因此與每個考試的參與者接觸會浪費時間和資源。
實際上,當收集和分析人口的數據時,已經過去了幾年,這使得分析毫無價值,因為新的人群已經出現。研究人員可以做的是代表人口並從此樣本中獲取數據。
為了獲得無偏樣的樣本,選擇必須是隨機的,因此人口中的每個人都有相等且可能被添加到樣本組中的機會。這類似於抽獎,是簡單的隨機抽樣。
重要的
樣本是從人群中取出的無數觀察結果。對於公正的樣本,選擇必須是隨機的,以便人口中的每個人都有相等的機會被添加到小組中。
採樣方法
抽樣方法是指從一般人群中選擇樣本的方式。研究人員可以使用兩種抽樣方法之一進行研究:
- 概率採樣:概率採樣沒有故意的選擇。這就是為什麼它也稱為隨機抽樣的原因。由於不涉及偏見,因此概率抽樣可能是耗時的,有時還會昂貴。
- 非概率採樣:使用這種抽樣方法的研究人員故意選擇樣本。這使其成為一種非隨機抽樣方法。由於它不是隨機的,因此只有一定部分的人群才有機會參加研究。根據某些因素(包括位置或便利性)選擇樣品。
採樣類型
現在您知道了採樣方法,重要的是要了解統計學家和研究人員可以使用的不同類型的採樣類型。我們僅強調了下面的幾種抽樣。
簡單的隨機抽樣
簡單的隨機抽樣如果人口中的每個實體都是相同的,則是理想的選擇。如果研究人員不在乎他們的樣本受試者是男性還是全女性,或以某種形式的性別組合,那麼簡單的隨機抽樣可能是一種很好的選擇技術。
假設2021年參加CFA考試的20萬名考試者,其中40%是女性,男性為60%。因此,從人口中抽出的隨機樣本應具有400名女性和600名男性,共有1,000名考生。
系統抽樣
系統抽樣是概率採樣的一種形式。與簡單的隨機抽樣類似,它涉及在固定的周期間隔內選擇隨機樣品。研究人員通過將總人口除以所需的樣本量來計算間隔。
與簡單的隨機抽樣不同,在時間和成本上,系統採樣效率更高。處理數據的風險也較低。
當以下方式最好使用此類抽樣:
- 人口有一些順序
- 當人口大且已知時,尤其是在時間和資源有限的時候
- 當樣本均勻分佈在人群中
分層隨機抽樣
但是,在學習不到40小時後通過測試的男性與女性的比率與女性的比率很重要呢?在這裡,分層隨機樣品比簡單的隨機樣本更可取。
這種類型的抽樣(也稱為比例隨機抽樣或配額隨機抽樣)將整個總體分為較小的組。這些被稱為層。地層中的人們具有相似的特徵。
如果年齡是研究人員想要在數據中包含的重要因素,該怎麼辦?使用分層的隨機抽樣技術,它們可以為每個年齡段創建層或地層。選擇必須是隨機的,因此括號中的每個人都有可能被包括在內。
例如,兩名參與者Alex和David分別22歲和24歲。樣本選擇不能基於某些優先機制選擇另一個。他們倆都應該有同等的機會從其年齡段中選出。地層看起來像這樣:
地層(年齡) | 人口數量 | 要包含在樣本中的數字 |
---|---|---|
20-24 | 30,000 | 150 |
25-29 | 70,000 | 350 |
30-34 | 40,000 | 200 |
35-39 | 30,000 | 150 |
40-44 | 20,000 | 100 |
> 44 | 10,000 | 50 |
全部的 | 200,000 | 1,000 |
從表格中,人口已分為年齡組。例如,20至24歲年齡範圍內的30,000人在2021年參加了CFA考試。使用相同的比例,樣本組將擁有(30,000÷200,000)×1,000 = 150個屬於該組的考試者。 Alex或David(或兩者均或兩者都不是)可能包括在樣本的150名隨機考試參與者中。
決定樣本量時,還可以編譯更多的層。在決定如何創建樣本時,一些研究人員可能會填充考試者的工作職能,國家,婚姻狀況等。
集群採樣
集群採樣是隨機抽樣的一種形式。集群被定義為較大人群的不同子集。集群中的個別樣本具有相似的特徵。當有大量種群分佈的人群時,通常會使用簇抽樣,從而使研究每個受試者變得昂貴且耗時。
有幾個步驟要聚集採樣:
- 了解並確定正在研究的人群。
- 創建群集。這意味著將整個人群分為群體,並從這些群體中選擇隨機樣本進行研究。
- 從集群中選擇樣品。
- 研究人員通過採訪樣本來進行研究。完成此操作後,收集和分析數據。
如上所述,群集抽樣可以節省時間和金錢。但是,使用此類抽樣存在某些缺點。例如,研究人員選擇群集和样本時可能會偏見。因此,樣品可能無法準確代表整個人口。
樣品的示例
2022年,世界人口接近79.5億,其中49.7%為女性,男性為50%。任何給定國家的人數也可能是人口規模。城市中的學生總數可以作為人口,而城市中的狗總數也是人口規模。可以從這些人群中獲取樣本,以進行研究。
在我們的CFA考試示例之後,研究人員可以從總計200,000名考試者(人口)中取出1,000名CFA參與者的樣本,並在此數字上運行所需的數據。該樣本的平均值將用於估計CFA考試者的平均值,即使他們僅學習少於40小時。
採集的樣本組不應偏見。這意味著,如果1,000名CFA考試參與者的樣本平均值為50,那麼200,000個接受者的人口平均值也應約為50。
為什麼分析師使用樣本而不是測量人群?
通常,人口太大或太大,無法衡量每個成員並衡量每個成員的昂貴且耗時。樣本允許使用統計方法對人群進行推斷。
什麼是簡單的隨機樣本?
這種抽樣方法使用從較大人群中隨機選擇的受訪者或數據點。隨機樣品具有足夠大的樣本量,可以消除偏差。
為什麼隨機樣本允許推理?
您需要多大的樣本?
這將取決於人口的大小和您想做的分析類型(例如,您使用的置信區間)。功率分析是一種基於您的需求來數學評估所需的最小樣本量的技術。另一個經驗法則是,您的樣本應該足夠大,但不超過人口的10%。
底線
抽樣可以幫助我們了解大量人群的細微差別。這是研究人員在節省時間的同時研究它們的一種經濟高效的方式。因為很難研究大型群體,所以營銷人員,科學家,政府和其他研究人員使用較小的子集(稱為樣本)來分析和做出重要決定。