R平方(r2)定义为一个数字,可以告诉您统计模型中的自变量解释因变量的变化。它的范围从0到1,其中1表示模型与数据的完美拟合。
计算R平方的公式是:
r2=1- 总变化无法解释的变化
关键要点
- R平方是一种统计度量,它指示因变量的变化中有多少由回归模型中的自变量解释。
- 在投资中,R平方通常被解释为基金或安全价格变动的百分比,这可以通过基准指数中的移动来解释。
- 100%的R平方表示,安全性(或其他因变量)的所有运动都由索引中的移动(或您感兴趣的任何独立变量)完全解释。
Xiaojie Liu / Investopedia
如何计算R平方
R平方的计算需要几个步骤。这包括获取因变量和自变量的数据点(观察)和进行进行回归分析找到最佳拟合线,通常来自回归模型。该回归线有助于可视化变量之间的关系。从那里,您将计算预测的值,减去实际值并将结果保持平方。这些系数估计和预测对于理解变量之间的关系至关重要。这产生了一个误差平方列表,然后将其求和并等于无法解释的方差(或上面公式中的“无法解释的变化”)。
为了计算总方差(或总变化),您将从每个实际值中的每个值,对结果进行平衡并总和它们。这个过程有助于确定总数正方形的总和,这是计算R平方的重要组成部分。从那里开始,按照公式,将错误的第一个总和(无法解释的差异)除以第二和(总方差),从一个总和中减去结果,然后您具有R平方。
如何解释R平方
R平方表示因变量可预测的因变量中方差的比例。 1的值意味着因变量中的所有可变性都由自变量解释,而0的值表示为0,表明自变量不能解释任何可变性。 R平方应与其他统计和上下文一起解释,因为如果模型过度拟合,则有时会产生误导。
相关性解释了自变量和因变量之间关系的强度,而R平方解释了一个变量的差异解释第二个变量的方差的程度。因此,如果模型的R平方为0.50,则大约一半的观测变化可以通过模型的输入来解释。
如何使用R平方
在投资中,R平方通常被解释为基金或安全性运动的百分比,可以通过基准指数中的运动来解释。例如,一个用于a的R平方固定收益安全性与债券指数相对于债券指数可以根据指数的价格变动来确定可预测的价格变动比例。
相同的股票与标准普尔500指数或任何其他相关指数也可以应用于股票。也可能被称为共同确定。
R平方值范围从0到1,通常表示为0%至100%的百分比。 100%的R平方表示,安全性(或另一个因变量)的所有运动都由索引中的移动(或您感兴趣的任何自变量)完全解释。
在投资中,高R平方从85%到100%,表明该股票或基金的绩效与指数相对一致。低R平方的基金,以70%或以下的价格表明该基金通常不会遵循指数的运动。更高的R平方值将表明更有用的Beta数字。例如,如果股票或基金的R平方值接近100%,但Beta低于1,则很可能会提供更高的风险调整后的回报。
R平方与调整后的R平方
R平方仅按照一个简单的线性回归模型的目的工作,并具有一个解释变量。通过由多个自变量组成的多重回归,必须调整R平方。
这调整后的R平方比较包括不同数量预测变量的回归模型的描述能力。通常会使用诸如R平方等措施来评估这一点,以评估健康的好处。添加到模型的每个预测变量都会增加R平方,并且永远不会减少它。因此,一个具有更多术语的模型似乎更适合其具有更多术语的事实,而调整后的R-squared赔偿了变量的添加。仅当新术语增强模型高于概率所获得的模型并减小预测器增强模型小于偶然预测的模型时,它才会增加。
在过度拟合条件下,即使模型实际上预测能力下降,也获得了不正确的R平方值。调整后的R平方并非如此。
R平方与Beta
beta和R平方是两个相关但不同的相关度量。 beta是衡量相对风险的量度。具有高R平方的共同基金与基准高度相关。如果Beta也很高,则可能会产生比基准更高的回报牛市。
R-Squared衡量资产价格的每次变化与基准相关的程度如何。 Beta衡量这些价格变化相对于基准的大小。一起使用,R-Squared和Beta可以为投资者提供资产经理绩效的详尽了解。 Beta的确切1.0意味着资产的风险(波动率)与其基准的风险相同。
本质上,R平方是一种统计分析技术,用于证券Beta的实际使用和可信度。
R平方的局限性
R平方将为您估算基于独立变量的运动的因变量的运动之间的关系。但是,它不会告诉您所选的模型是好还是坏,也不会告诉您数据和预测是否有偏见。
高或低的R平方不一定是好是坏 - 它不会传达模型的可靠性,或者您是否选择了正确的回归。您可以获得一个低的R平方,以用于良好的型号,或者是适合型号的高R平方,反之亦然。
改进R平方的提示
改进的R平方通常需要一种细微的模型优化方法。一种潜在的策略涉及仔细考虑特征选择和工程。通过识别模型中最相关的预测指标,您可以增加解释关系的可能性。此过程可能涉及进行彻底的探索性数据分析或使用逐步回归或正则化等技术选择最佳变量集。
增强R平方的另一种方法是解决多重共线性。多重共线性是自变量彼此高度相关的时候。但是,它们可以扭曲系数估计并降低模型的准确性。诸如方差通胀因子分析或主成分分析之类的技术可以帮助识别和减轻多重共线性。
您还可以通过完善模型规格来改善R平方并考虑非线性关系变量之间。这可能涉及以不同的方式探索高阶术语,交互或转换变量,以更好地捕获数据点之间的隐藏关系。在某些情况下,您必须拥有强大的领域知识才能在模型之外获得这种洞察力。
R平方告诉您什么?
R平方告诉您因变量中差异的比例,该变量由回归模型中的自变量解释。它衡量模型对观察到的数据的拟合优度,表明该模型的预测与实际数据点的匹配程度。
R平方可以为负吗?
不,R平方不能为负。它始终落在0到1的范围内,其中0表明自变量没有解释因变量中的任何可变性,而1表示模型与数据的完美拟合。
为什么R平方值这么低?
低R平方值表明,回归模型中的自变量没有有效地解释因变量的变化。这可能是由于诸如缺少相关变量,非线性关系或模型无法捕获的数据的固有变异性之类的因素所致。
什么是“良好” R平方值?
符合“良好”的R平方值的资格将取决于上下文。在某些领域,例如社会科学,甚至相对较低的R平方值,例如0.5,也可以被认为是相对强的。在其他领域,良好的R平方读数的标准可能更高,例如0.9或更高。在金融中,通常认为高于0.7的R平方显示高水平的相关性,而低于0.4的量度将显示出较低的相关性。但是,这不是一个艰难的规则,将取决于特定的分析。
更高的R平方更好吗?
再次,这取决于上下文。假设您正在寻找一个指数基金这将尽可能地跟踪特定索引。在这种情况下,您希望该基金的R平方价值尽可能高,因为它的目标是匹配(而不是Trail)索引。另一方面,如果您正在寻找积极管理的资金,那么高R平方值可能被视为一个不良迹象,表明资金的经理没有增加相对于其基准测试的足够价值。
底线
R平方在投资和其他环境中很有用,您正在尝试确定一个或多个独立变量影响因变量的程度。但是,它的局限性使其比完美的预测性少。