什么是系统抽样?
系统抽样是一种概率采样根据随机起点但具有固定的周期性间隔选择来自较大人群的样本成员的方法。通过将种群大小除以所需的样本量来计算此抽样间隔。
关键要点
- 系统抽样是一种概率采样方法,其中从较大人群中选择具有固定时间间隔的随机样品。
- 固定的周期间隔(称为采样间隔)是通过将种群大小除以所需的样本量来计算的。
- 这种方法的优点包括消除聚类选择的现象和污染数据的概率低。
- 缺点包括特定模式的代表性过多或代表性不足以及更大的数据操纵风险。
- 系统样本的主要类型有三种:随机系统样本,线性系统样本和循环系统样品。
系统抽样
Investopedia / Like Riaz
了解系统的抽样
当对大量规模的大量人群正确执行时,系统的采样可以帮助包括营销和销售专业人员在内的研究人员获得一群人的代表性调查结果,而无需与每个人接触。
自从简单的随机抽样人口的效率可能降低且耗时,统计学家转向其他方法,例如系统采样。可以通过系统方法选择样本量可以快速完成。一旦确定了固定的起点,就会选择恒定间隔以促进参与者的选择。
当数据操纵风险较低时,系统采样比简单的随机抽样更可取。如果当研究人员可以操纵间隔长度以获得所需结果时,这种风险很高,那么简单的随机抽样技术将更合适。
由于其简单性,系统的抽样对研究人员和分析师很受欢迎。研究人员通常认为结果代表了最正常的人群除非一个随机特征不成比例地存在nTH数据样本(不太可能)。换句话说,人群需要与所选的指标一起表现出自然的随机性。如果人口具有标准化模式,那么意外选择非常常见案例的风险将更加明显。
在系统抽样中,与其他抽样方法一样,必须在选择参与者之前选择目标群体。可以根据适合进行研究目的的任何数量的所需特征来识别人群。一些选择标准可能包括年龄,性别,种族,位置,教育水平或职业。
重要的
有几种方法可以对人群进行统计推断。系统抽样是随机抽样的一种形式。
何时使用系统样本
最适合系统的采样的情况是,当研究人群表现出一定程度的秩序或规律性时。例如,如果您要调查进入商店的客户,系统的采样使您可以系统地选择每个n客户,从而确保在一天中或一周的不同时间内表示。这种方法有助于避免仅选择在特定时期内到达的客户而产生的偏见。
系统抽样可能良好的另一种情况是,当人口大小是已知且相对较大的情况下。系统的抽样无需列出和随机从整个人群中选择个体,而是通过在设定的节奏下选择样本来简化过程。这在时间和资源有限的大规模研究中特别有用,这意味着您无需花费大量的能源计划。
当研究人员想要确保样本均匀分布在整个人群中时,可以使用系统的抽样。例如,公司可以从姓氏过滤的公司目录中选择每个n人。其他形式的抽样可能会意外聚类相似的人群(即根据样本的聚合方式选择了太多的金融人员)。
此外,与其他采样方法相比,系统抽样提供了简单性和易于实现的优势。它需要最小的计算,并且可以轻松地使用简单算法,尤其是在已知目标样本量和总人口规模的情况下。
创建系统样本的步骤
您可以使用以下步骤创建系统示例:
- 定义您的人口: 这是您采样的组。
- 定居: 您需要/需要多少个受试者从人群中采样以获得反思性的想法?
- 分配每个人口成员一个数字:如果您要看的小组包括10,000人,请开始排队并给他们数字。
- 确定抽样间隔: 这可以通过将人口规模除以所需的样本量来实现。
- 选择一个起点: 这可以通过选择一个随机数来完成。
- 确定样本的成员: 如果您的起点为15,样本间隔为100,则样品的第一个成员为115,依此类推。
系统抽样的示例
作为系统抽样的假设例子,假设在10,000人的人群中,统计学家选择每100人进行抽样。抽样间隔也可能是系统的,例如选择一个新样本每12小时绘制。
作为另一个例子,如果您想使用系统抽样从50,000人口中选择一组1,000人,则所有潜在的参与者都必须放在列表中,并且将选择一个起点。一旦形成列表,列表中的每50人(从选定的起点开始计数)将被选为参与者,因为50,000÷1,000 = 50。
例如,如果选定的起点为20,则将选择列表中的第60人,然后选择120人,依此类推。一旦达到列表的结束,如果需要其他参与者,则计数循环到列表的开头完成计数。
快速事实
为了进行系统的采样,研究人员必须首先了解目标人群的大小。
系统抽样的类型
通常,有三种生成系统样本的方法:
系统的随机抽样
这是系统抽样的经典形式,其中以预定的间隔选择对象。例如,如果研究人员想从1000人口中选择100名学生的样本,则可以通过从随机顺序排序的列表中选择每10名学生来使用系统的随机抽样。这种方法可确保每个人口的每个成员都有相等的机会被选中,同时仍保持系统的抽样模式。
线性系统采样
这不是按照线性路径创建跳过模式的,而不是随机选择抽样间隔。这意味着,选择过程并没有从人口中选择每个n个成员,而是遵循一个预定的序列,例如选择每个第五成员,然后选择每个第7个成员,然后是每个9成员,等等。线性系统抽样在有特定的阶顺序或序列的情况下,例如沿线性路径的地理位置。
圆形系统采样
这是一个样本在结束后再次在同一点开始的时候。这意味着,一旦抽样间隔达到了人口的最后一个成员,它就会始于开始并继续选择过程。循环系统采样通常用于人口表现出周期性模式或没有明确起点或终点的情况。例如,如果研究人员正在研究森林中的树木生长,则可以通过沿圆形路径定期选择树木来使用圆形系统采样,从而确保对森林区域的全面覆盖。
系统抽样与群集采样
系统的采样和群集抽样在样本中包括的种群中取样点的方式有所不同。群集抽样将人口分解为集群,而系统的采样使用较大人群的固定间隔来创建样本。
系统抽样从人群中选择一个随机的起点,然后根据人口的常规固定间隔取样,具体取决于其大小。群集采样将种群分为簇,然后从每个群集中获取一个简单的随机样品。
群集采样被认为不如其他抽样方法精确。但是,它可以节省获得样本的成本。群集采样是两步采样过程。完成整个人口列表时,可以使用它。例如,很难构建杂货店的客户的全部人口进行面试。
但是,一个人可以创建一个随机的商店子集,这是该过程的第一步。第二步是采访这些商店客户的随机样本。这是一个简单的手动过程,可以节省时间和金钱。
系统采样时要避免的错误
使用系统采样时要注意的一个常见陷阱是选择不合适的采样间隔。选择太小的采样间隔可能会导致过采样并增加采样误差,同时选择太大的间隔可能会导致样本的不足并降低代表性。在开始抽样之前,可以充分了解人口的全部范围来避免此错误。
要避免的另一个错误是未解决采样框架引入的潜在偏差。如果采样框架不代表感兴趣的人群,则系统的抽样可能会导致偏见。例如,如果采样框架仅包括来自某些人口组或地理位置的个人,则样本不会反映多样性在整个人群中。这种类型的误差以所有形式的采样形式存在。
要注意的另一个提示是说明人口中系统的模式或周期的存在。如果人口与抽样间隔保持一致的周期性模式或趋势,则某些人口的某些段可能会系统地过度或代表性不足。例如,想象一下从棒球名册中选择随机球员。如果这些名单按顺序排列列出,则可能最终会从团队中选择相同位置的球员,因为人口具有周期性的模式。
系统抽样的局限性
进行系统抽样时必须考虑的一个风险涉及如何组织抽样间隔的列表。如果列表上的种群以与采样间隔相匹配的周期性模式组织,则可能会偏向选定的样本。
例如,公司的人力资源部门希望挑选员工样本,并询问他们对公司政策的看法。员工分为20人,每个团队都由经理领导。如果用来选择样本量的列表是与聚集在一起的团队一起组织的,则统计学家风险仅根据采样间隔选择管理人员(或根本没有经理)。
我如何执行系统抽样?
首先,要进行系统的采样,请确定要从中采样的总体总大小。然后,选择一个随机起点,然后根据预定的采样间隔从总体中选择每个n构件。
我什么时候应该使用系统的抽样?
当您需要一种简单有效的方法来从具有已知且分布均匀的结构均匀的大量人群中选择代表性样本时,应使用系统的抽样,并且对于您的研究目标不可行或不需要随机化时。
系统采样的优势是什么?
系统的采样易于进行,易于理解,这就是为什么研究人员通常会喜欢它的原因。中心假设是结果代表大多数正常人群,保证了整个人群均匀地采样。
同样,与其他采样方法相比,由于其过程,系统抽样提供了更高的控制程度。系统抽样也具有低风险因素,因为数据可能污染的可能性很小。
系统采样的缺点是什么?
系统抽样的主要缺点是需要人口的大小。在不了解人群中的特定参与者的情况下,系统的抽样效果不佳。例如,如果统计学家想检查特定地区的无家可归者的年龄,但无法准确地获得有多少无家可归者,那么他们就不会有人口规模或起点。另一个缺点是,人口需要表现出自然的随机性,否则选择类似实例的风险是增加了样本的目的。
群集采样和系统抽样有何不同?
群集抽样和系统抽样在样本中包括的种群中获取样品点的方式有所不同。群集采样将种群分为簇,然后从每个群集中获取一个简单的随机样品。系统抽样从人群中选择一个随机的起点,然后根据人口的常规固定间隔取样,具体取决于其大小。群集采样易于比系统采样更大的采样误差,尽管这可能是一个更便宜的过程。
底线
抽样可以是得出关于一群人,物品或其他感兴趣的东西的有效方法。系统抽样是最受欢迎的方法之一,因为它比其他选项便宜且耗时。是的,这并不完美。但是,如果您的数据集在间隔之间没有模式的大型数据集,则系统的采样能够以相对较低的成本提供可靠的样品。