什麼是過度擬合?
過度擬合是當函數與有限的一組數據點對齊時發生的統計誤差。結果,該模型僅參考其初始數據集,而不是任何其他數據集。
過度擬合該模型通常採用製作一個過於復雜的模型來解釋所研究數據中的特質。實際上,經常研究的數據中有一定程度的錯誤或隨機噪聲。因此,試圖使模型過於吻合以至於略微不准確的數據會以實質性錯誤感染模型並降低其預測能力。
關鍵要點
- 過度擬合是由於特定函數與最小數據點的特定函數對齊的結果,該錯誤在數據建模中發生。
- 財務專業人員有可能根據有限的數據過度適應模型,並最終獲得有缺陷的結果。
- 當模型因過度擬合而受到損害時,該模型可能會失去其作為投資預測工具的價值。
- 數據模型也可能不足,這意味著它太簡單了,數據點太少而無法有效。
- 過度擬合是一個比不舒適的問題更頻繁的問題,通常是由於試圖避免過度擬合而發生的。
了解過度擬合
例如,一個常見的問題是使用計算機演算法搜索歷史市場數據的廣泛數據庫,以找到模式。給出了足夠的研究,通常有可能開發出似乎可以預測回報的精美定理股市緊密的精度。
但是,當應用於樣本之外的數據時,這種定理可能僅僅證明是模型過度擬合到實際上偶然發生的情況。在所有情況下,重要的是要針對用於開發該模型的模型,該模型用於開發該模型。
如何防止過度擬合
防止過度擬合的方法包括交叉驗證,其中用於訓練的數據將模型切成折疊或分區,並為每個折疊運行模型。然後,將總體誤差估計為平均。其他方法包括結合:預測是由至少兩個單獨的模型組合在一起的,即數據增強,其中可用的數據集看起來多樣化,並簡化了該模型以避免過度擬合的數據簡化。
重要的
金融專業人士必須始終意識到過度適應或基於有限數據擬合模型的危險。理想的模型應保持平衡。
在機器學習中過度擬合
過度擬合也是機器學習的一個因素。當已經教授機器以一種方式掃描特定數據時,可能會出現,但是當將相同的過程應用於新的數據集時,結果是不正確的。這是由於構建模型中的錯誤,因為它可能顯示出較低的偏差和較高的差異。該模型可能具有冗餘或重疊的特徵,從而導致其變得不必要地複雜,因此無效。
過於擬合與不足
過度擬合的模型可能太複雜了,使其無效。但是模型也可能不足,這意味著它太簡單了,功能太少,數據太少而無法構建有效的模型。過度擬合模型的偏差和較高的差異,而不合適的模型則相反 - 偏差很高且方差較低。在過於簡單的模型中添加更多功能可以幫助限制偏見。
過於擬合的示例
例如,一所大學的大學輟學率要高於所需的大學輟學率,該大學決定要創建一個模型來預測申請人將其整個畢業的可能性預測的可能性。
為此,大學從5,000名申請人及其結果的數據集中訓練模型。然後,它在原始數據集(5,000名申請人組成的組)上運行模型,該模型以98%的精度預測結果。但是,為了測試其準確性,他們還在第二個數據集上運行該模型,更多的申請人。但是,這次,該模型僅準確50%,因為該模型與狹窄的數據子集非常吻合,在這種情況下是前5,000個應用程序。