卡方(x2) 统计量是测量模型与实际观察到的数据相比的测试。计算卡方统计量的数据必须是随机的,原始的,相互排斥的,是从自变量中绘制的,并且是从足够大的样本中绘制的。例如,抛弃硬币的结果符合这些标准。
卡方检验通常用于检验假设。鉴于样本的大小以及关系中的变量数量,卡方统计量比较了预期结果与实际结果之间的任何差异的大小。
对于这些测试,自由度用于确定是否某个零假设可以根据实验中的变量和样本总数拒绝。与任何统计量一样,样本量越大,结果就越可靠。
关键要点
- 卡方(x2) 统计量是对一组事件或变量结果观察到的结果和预期频率之间差异的量度。
- 卡方对于分析分类变量的这种差异很有用,尤其是那些本质上的差异。
- x2取决于实际和观察值之间的差异,自由度和样本量之间的差异。
- x2可用于测试两个变量是相关还是彼此独立的。
- 它也可以用来测试观察到的分布与频率的理论分布之间的拟合优度。
卡方(χ2)统计的公式
xc2=∑e我((o我- e我)2在哪里:c=自由度o=观察到的值
卡方(χ2)统计数据可以告诉您什么
有两种主要的卡方测试将提供不同的信息:
- 独立的考验提出了一个关系问题,例如:“学生性别与课程选择之间有关系吗?”
- 拟合优点测试提出了一个理论问题,例如:“我手中的硬币与理论上公平的硬币相匹配?”
笔记
卡方分析应用于分类变量,当这些变量是标称的(如果订单无关紧要,例如婚姻状况或性别)时,特别有用。
独立测试
考虑学生性别和课程选择时x2可以使用独立测试。为了进行这项测试,研究人员将收集有关两个选择变量(挑选的性别和课程)的数据,然后比较男女学生在提供的课程中使用上面给出的公式和Ax2统计表。
如果性别和课程选择之间没有关系(即,如果他们是独立的),则应期望男女选择每个课程的实际频率大致相等,或者相反,任何选定课程中男女的比例应大致等于男性和女学生在男性和女学生中的比例样本。
一个x2对独立性的测试可以告诉我们,随机机会可以解释数据中实际频率与这些理论期望之间的任何差异。
在一项独立测试中,一家公司可能希望评估其新产品(有望为人们增强能源的草药补充剂)是否正在吸引最有可能感兴趣的人。
是广告在与体育和健身有关的网站上,假设活跃和健康意识的人最有可能购买它。它进行了一项广泛的民意调查,旨在评估人口统计组对产品的兴趣。民意调查表明,对该产品的兴趣与最健康的人之间的兴趣没有关系。
适合良好的测试
x2提供了一种测试数据样本与样本旨在表示的较大人群(已知或假定)特征的样本的方法。这被称为合适的好处。
如果样本数据不符合感兴趣的人群的预期特性,那么人们就不想使用此样本来得出有关较大人群的结论。
作为测试的一个例子健康的好处,一名营销专家正在考虑推出该公司认为对45岁以上的女性无法抗拒的新产品。该公司已经进行了500个潜在买家的产品测试面板。
营销专家有有关测试面板的年龄和性别的信息。这允许构建卡方测试,显示分配按年龄和性别的性别,他们说他们会购买该产品。
结果将表明最有可能的买家是45岁以上的女性。如果测试表明45岁或18至44岁的男性购买产品的可能性同样可能,那么营销专家将修改广告,促销和产品的位置,以吸引这个更广泛的客户。
如何使用卡方(χ2)统计量的示例
例如,考虑一个恰好50/50的想象硬币着陆头或尾巴还有一个真正的硬币,您扔了100次。如果这枚硬币是公平的,那么它的两侧也将具有同样的降落的可能性,而将硬币扔到100次的预期结果是,头部将增加50次,尾巴将增加50次。
在这种情况下,x2可以告诉我们100个硬币翻转的实际结果与公平硬币将产生50/50结果的理论模型相比如何。实际的抛弃可能会增加50/50,或60/40,甚至90/10。
距离100折扣的实际结果距离越远,从50/50起,这组折腾的合适性越小,其理论期望是50/50,而且人们越有可能得出结论,这种硬币实际上不是公平的硬币。
何时使用卡方(χ2)测试
卡方检验用于帮助确定观察到的结果是否与预期结果一致,并排除观察结果是由于机会引起的。
当分析的数据来自随机样本,当所讨论的变量是一个分类变量时。一个分类变量包括选择,例如汽车类型,种族,教育程度,男性或女性,或者有人喜欢政治候选人(从非常到很少)。
这些类型的数据通常是通过调查响应或问卷收集的。因此,卡方分析通常在分析此类数据方面最有用。
如何执行卡方(χ2)测试
这些是您进行合适性测试或独立测试的基本步骤:
- 创建一个观察到的和预期频率的表。
- 使用公式计算卡方值。
- 使用卡方值表或统计软件。
- 确定卡方值还是临界值是两者中的较大值。
- 拒绝或接受零假设。
卡方(χ2)统计的局限性
卡方检验对样本量敏感。当关系不在时,关系似乎很重要,仅仅是因为使用了很大的样本。
此外,卡方检验无法确定一个变量是否与另一个变量有因果关系。它只能确定两个变量是否相关。
什么是使用卡方测试?
卡方是一种统计检验,用于检查从随机样品中的分类变量之间的差异,以判断预期结果和观察到的结果之间的拟合优度。
谁使用卡方分析?
由于卡方适用于分类变量,因此正在研究调查响应数据的研究人员使用它。这种研究的范围从人口统计学到消费者,市场研究再到政治科学和经济学。
当自变量标称或序数时,是否使用卡方分析?
名义变量是一个分类变量,其质量有所不同,但其数值顺序可能是无关紧要的。例如,询问某人自己喜欢的颜色会产生名义变量。另一方面,询问某人的年龄会产生一组序数数据。卡方可以最好地应用于名义数据。
底线
卡方统计量用于测量一组变量结果观察到的频率和预期频率之间的差异。这可能有助于分析分类变量的差异,尤其是本质上的差异。两种不同类型的卡方检验(独立性和拟合良好的测试)将回答不同的关系问题。