什麼是逐步回歸?
逐步回歸是逐步迭代構建回歸模型涉及在最終模型中選擇要使用的自變量的模型。它涉及在每次迭代後添加或刪除連續的潛在解釋變量並測試統計顯著性。
即使在具有數百個變量的型號中,統計軟件包的可用性也可以使逐步回歸成為可能。
關鍵要點
- 逐步回歸是一種迭代(反复)檢查線性回歸模型中每個自變量的統計顯著性的方法。
- 遠期選擇方法一無所有,並逐步添加每個新變量,測試統計意義。
- 向後消除方法始於一個帶有多個變量的完整模型,然後刪除一個變量以測試其相對於整體結果的重要性。
- 但是,逐步回歸具有弊端,因為這是一種適合數據中的方法以實現所需結果的方法。
逐步回歸的類型
逐步回歸的基本目標是通過一系列測試(例如F檢驗,t檢驗)找到一組顯著影響因變量的自變量。這是通過迭代通過計算機來完成的,這是通過重複的回合或分析週期來達到結果或決策的過程。在統計軟件包的幫助下自動進行測試的優勢是節省時間和限制錯誤。
可以通過一次嘗試一個自變量來實現逐步回歸具有統計學意義或通過將所有潛在的自變量包括在模型中,並消除那些在統計上不顯著的變量。有些方法結合了兩種方法,因此有三種逐步回歸的方法:
- 向前選擇首先從模型中沒有變量開始,測試每個變量,以將其添加到模型中,然後將其視為最統計學上顯著的最顯著意義的變量,然後將過程重複,直到結果最佳。
- 向後消除從一組自變量開始,一次刪除一個變量,然後測試以查看刪除變量是否具有統計學意義。
- 雙向消除是測試應包括或排除變量的前兩種方法的組合。
例子
使用向後消除方法進行逐步回歸的一個示例是嘗試使用諸如設備運行時間,設備年齡,員工尺寸,外部溫度以及一年中的時間來了解工廠的能源使用情況。該模型包括所有變量,然後一次刪除每個變量,以確定哪種最少具有統計學意義。最後,該模型可能表明,一年中的時間和溫度最為重要,可能表明工廠的峰值消耗是在空調的使用最高時。
逐步回歸的局限性
回歸分析,兩者均線性和多元,在當今的經濟學和投資世界中廣泛使用。這個想法通常是要找到過去可能會在將來復發的模式。例如,一個簡單的線性回歸可能會查看價格對美元比率股票回報多年來,以確定較低的市盈率(獨立變量)是否提供更高的收益(因變量)。這種方法的問題在於,市場條件經常發生變化,過去與過去的關係不一定在當前或將來成立。
同時,逐步回歸過程有許多批評家,甚至有呼籲完全停止使用該方法。統計學家注意到該方法的幾個缺點,包括不正確的結果,過程本身的固有偏見以及重要的計算能力通過迭代開發複雜回歸模型的必要性。