什么是逐步回归?
逐步回归是逐步迭代构建回归模型涉及在最终模型中选择要使用的自变量的模型。它涉及在每次迭代后添加或删除连续的潜在解释变量并测试统计显着性。
即使在具有数百个变量的型号中,统计软件包的可用性也可以使逐步回归成为可能。
关键要点
- 逐步回归是一种迭代(反复)检查线性回归模型中每个自变量的统计显着性的方法。
- 远期选择方法一无所有,并逐步添加每个新变量,测试统计意义。
- 向后消除方法始于一个带有多个变量的完整模型,然后删除一个变量以测试其相对于整体结果的重要性。
- 但是,逐步回归具有弊端,因为这是一种适合数据中的方法以实现所需结果的方法。
逐步回归的类型
逐步回归的基本目标是通过一系列测试(例如F检验,t检验)找到一组显着影响因变量的自变量。这是通过迭代通过计算机来完成的,这是通过重复的回合或分析周期来达到结果或决策的过程。在统计软件包的帮助下自动进行测试的优势是节省时间和限制错误。
可以通过一次尝试一个自变量来实现逐步回归具有统计学意义或通过将所有潜在的自变量包括在模型中,并消除那些在统计上不显着的变量。有些方法结合了两种方法,因此有三种逐步回归的方法:
- 向前选择首先从模型中没有变量开始,测试每个变量,以将其添加到模型中,然后将其视为最统计学上显着的最显着意义的变量,然后将过程重复,直到结果最佳。
- 向后消除从一组自变量开始,一次删除一个变量,然后测试以查看删除变量是否具有统计学意义。
- 双向消除是测试应包括或排除变量的前两种方法的组合。
例子
使用向后消除方法进行逐步回归的一个示例是尝试使用诸如设备运行时间,设备年龄,员工尺寸,外部温度以及一年中的时间来了解工厂的能源使用情况。该模型包括所有变量,然后一次删除每个变量,以确定哪种最少具有统计学意义。最后,该模型可能表明,一年中的时间和温度最为重要,可能表明工厂的峰值消耗是在空调的使用最高时。
逐步回归的局限性
回归分析,两者均线性和多元,在当今的经济学和投资世界中广泛使用。这个想法通常是要找到过去可能会在将来复发的模式。例如,一个简单的线性回归可能会查看价格对美元比率股票回报多年来,以确定较低的市盈率(独立变量)是否提供更高的收益(因变量)。这种方法的问题在于,市场条件经常发生变化,过去与过去的关系不一定在当前或将来成立。
同时,逐步回归过程有许多批评家,甚至有呼吁完全停止使用该方法。统计学家注意到该方法的几个缺点,包括不正确的结果,过程本身的固有偏见以及重要的计算能力通过迭代开发复杂回归模型的必要性。