什么是过度拟合?
过度拟合是当函数与有限的一组数据点对齐时发生的统计误差。结果,该模型仅参考其初始数据集,而不是任何其他数据集。
过度拟合该模型通常采用制作一个过于复杂的模型来解释所研究数据中的特质。实际上,经常研究的数据中有一定程度的错误或随机噪声。因此,试图使模型过于吻合以至于略微不准确的数据会以实质性错误感染模型并降低其预测能力。
关键要点
- 过度拟合是由于特定函数与最小数据点的特定函数对齐的结果,该错误在数据建模中发生。
- 财务专业人员有可能根据有限的数据过度适应模型,并最终获得有缺陷的结果。
- 当模型因过度拟合而受到损害时,该模型可能会失去其作为投资预测工具的价值。
- 数据模型也可能不足,这意味着它太简单了,数据点太少而无法有效。
- 过度拟合是一个比不舒适的问题更频繁的问题,通常是由于试图避免过度拟合而发生的。
了解过度拟合
例如,一个常见的问题是使用计算机算法搜索历史市场数据的广泛数据库,以找到模式。给出了足够的研究,通常有可能开发出似乎可以预测回报的精美定理股市紧密的精度。
但是,当应用于样本之外的数据时,这种定理可能仅仅证明是模型过度拟合到实际上偶然发生的情况。在所有情况下,重要的是要针对用于开发该模型的模型,该模型用于开发该模型。
如何防止过度拟合
防止过度拟合的方法包括交叉验证,其中用于训练的数据将模型切成折叠或分区,并为每个折叠运行模型。然后,将总体误差估计为平均。其他方法包括结合:预测是由至少两个单独的模型组合在一起的,即数据增强,其中可用的数据集看起来多样化,并简化了该模型以避免过度拟合的数据简化。
重要的
金融专业人士必须始终意识到过度适应或基于有限数据拟合模型的危险。理想的模型应保持平衡。
在机器学习中过度拟合
过度拟合也是机器学习的一个因素。当已经教授机器以一种方式扫描特定数据时,可能会出现,但是当将相同的过程应用于新的数据集时,结果是不正确的。这是由于构建模型中的错误,因为它可能显示出较低的偏差和较高的差异。该模型可能具有冗余或重叠的特征,从而导致其变得不必要地复杂,因此无效。
过于拟合与不足
过度拟合的模型可能太复杂了,使其无效。但是模型也可能不足,这意味着它太简单了,功能太少,数据太少而无法构建有效的模型。过度拟合模型的偏差和较高的差异,而不合适的模型则相反 - 偏差很高且方差较低。在过于简单的模型中添加更多功能可以帮助限制偏见。
过于拟合的示例
例如,一所大学的大学辍学率要高于所需的大学辍学率,该大学决定要创建一个模型来预测申请人将其整个毕业的可能性预测的可能性。
为此,大学从5,000名申请人及其结果的数据集中训练模型。然后,它在原始数据集(5,000名申请人组成的组)上运行模型,该模型以98%的精度预测结果。但是,为了测试其准确性,他们还在第二个数据集上运行该模型,更多的申请人。但是,这次,该模型仅准确50%,因为该模型与狭窄的数据子集非常吻合,在这种情况下是前5,000个应用程序。