平方(RSS)的残差总和是一种用于测量量的统计技术方差在不通过回归模型本身解释的数据集中。相反,它估计残差的差异或错误术语。
线性回归是一种测量值,有助于确定因变量与一个或多个其他因素(称为独立或解释变量)之间关系的强度。
关键要点
- 平方(RSS)的残差总和测量回归模型的误差项或残差的方差水平。
- 平方的残差总和越小,您的模型越适合您的数据;平方的残差总和越大,您的模型越差。
- 零值意味着您的模型非常合适。
- 投资者和投资组合经理使用统计模型来跟踪投资的价格并使用该数据来预测未来的变动。
- 财务分析师使用RSS来估计其计量经济学模型的有效性。
了解平方的残留总和(RSS)
一般而言,正方形的总和是回归分析中用于确定数据点分散的统计技术。在回归分析中,目标是确定数据系列可以如何拟合到可能有助于解释数据系列生成的函数。平方的总和被用作一种数学方式来找到该功能最适合(最小不同)与数据不同。
RSS测量了运行模型后的回归函数与数据集之间剩余的误差量。较小的RSS图表示与数据非常合适的回归函数。
RSS,也称为平方残差之和,基本上决定了回归模型的解释或表示模型中的数据。
如何计算平方的残差总和
RSS =∑ni = 1 ((y我- f((x我))2
在哪里:
y我= iTh要预测变量的值
f(x我)= y的预测值我
n =求和的上限
正方形(RSS)与剩余标准误差(RSE)的剩余总和
残留标准误差(RSE)是描述差异的另一个统计术语标准偏差回归分析中点所示的观察值与预测值。是一个拟合优度可以用来分析一组数据点与实际模型的程度的度量。
RSE是通过将RSS除以样品中的观测值的数量来计算的。1/2
最小化RSS以获得最佳拟合
在回归分析的领域中,最大程度地减少平方的残差总和对于实现模型与数据的最佳拟合至关重要。在实现这一目标的不同技术中,最基本和广泛使用的方法之一是最小二乘回归。
最小二乘回归是一种旨在找到线路或曲线的方法,以最大程度地减少平方差的总和。这些差异将在观测值和模型预测的值之间。从本质上讲,最小二乘回归试图取得平衡,该模型捕获了数据的潜在趋势,同时仍然最大程度地减少了观察到的内容与预测的内容之间的差异。
通过最小二乘回归最小化RSS的过程涉及迭代调整模型的参数。这通常是在达到最佳拟合度之前完成的。对于简单的线性回归模型,这通常需要找到最适合数据的线路的斜率和截距。在更复杂的情况下,该过程变得更加复杂,但具有许多相同的原则。
RSS的局限性
RSS有一些局限性。首先,RSS给所有残差都相等。这意味着离群值可能会过分影响RSS,这意味着估计的系数可能会呈负偏斜。另一个缺点是RSS依赖于几个假设。如果违反了任何假设,例如线性,错误的独立性或同质性,则RSS可能会导致估计和不正确的推论。
尽管RSS可用于评估单个模型的拟合度,但仅使用RSS比较多个模型的拟合可能很困难。这是因为RSS取决于模型中参数的数量。它并不是要将模型与不同数量的参数进行比较。
最后,尽管RSS易于计算和解释,但它提供了对数据基础结构的有限洞察力。在了解预测变量与响应变量之间的关系很重要的情况下,可能会有更好的指标可以使用。在某些方面,RSS可以像黑匣子这些关系并不完全知道;只有最终值是最重要的。
特殊考虑
金融市场越来越多地驱动驱动;因此,为了寻找优势,许多投资者正在使用先进的统计技术来帮助他们的决策。大数据,机器学习和人工智能应用程序进一步需要使用统计特性来指导当代投资策略。剩余的正方形(或RSS统计)是许多具有文艺复兴时期的统计特性之一。
投资者和投资组合经理使用统计模型来跟踪投资的价格并使用该数据来预测未来的变动。这项研究的回归分析 - 可能涉及分析商品与从事生产商品的公司股票之间的价格变动之间的关系。
快速事实
手工找到剩余的正方形可能是困难且耗时的。因为它涉及大量减法,平方和总和,所以计算可能容易出现错误。因此,您可以决定使用诸如Excel之类的软件进行计算。
任何模型都可能在预测值和实际结果之间具有差异。尽管差异可能通过回归分析来解释,但RSS表示未解释的差异或错误。
由于可以使足够复杂的回归函数几乎密切适应任何数据集,因此需要进一步的研究以确定回归函数实际上是否有助于解释数据集的方差。
但是,通常,RSS的较小或较小的值在任何模型中都是理想的选择,因为这意味着数据集的变化较小。换句话说,平方残差的总和越低,回归模型在解释数据方面越好。
RSS的示例
对于RSS计算的简单(但漫长的)演示GDP。以下图表反映了公开的值消费者支出以及欧盟27个州的国内生产总值。请注意,自从发布以来,此信息可能已经略有变化,但是剩余的正方形总和仍然有效。
消费者支出与欧盟成员国的GDP | ||
---|---|---|
国家 | 消费者支出 (百万) |
GDP (百万) |
奥地利 | 309,018.88 | 433,258.47 |
比利时 | 388,436.00 | 521,861.29 |
保加利亚 | 54,647.31 | 69,889.35 |
克罗地亚 | 47,392.86 | 57,203.78 |
塞浦路斯 | 20,592.74 | 24,612.65 |
捷克共和国 | 164,933.47 | 245,349.49 |
丹麦 | 251,478.47 | 356,084.87 |
爱沙尼亚 | 21,776.00 | 30,650.29 |
芬兰 | 203,731.24 | 269,751.31 |
法国 | 2,057,126.03 | 2,630,317.73 |
德国 | 2,812,718.45 | 3,846,413.93 |
希腊 | 174,893.21 | 188,835.20 |
匈牙利 | 110,323.35 | 155,808.44 |
爱尔兰 | 160,561.07 | 425,888.95 |
意大利 | 1,486,910.44 | 1,888,709.44 |
拉脱维亚 | 25,776.74 | 33,707.32 |
立陶宛 | 43,679.20 | 56,546.96 |
卢森堡 | 35,953.29 | 73,353.13 |
马耳他 | 9,808.76 | 14,647.38 |
荷兰 | 620,050.30 | 913,865.40 |
波兰 | 453,186.14 | 596,624.36 |
葡萄牙 | 190,509.98 | 228,539.25 |
罗马尼亚 | 198,867.77 | 248,715.55 |
斯洛伐克共和国 | 83,845.27 | 105,172.56 |
斯洛文尼亚 | 37,929.24 | 53,589.61 |
西班牙 | 997,452.45 | 1,281,484.64 |
瑞典 | 382,240.92 | 541,220.06 |
消费者支出和GDP具有很强的正相关性,并且可以根据消费者支出(CS)来预测一个国家的GDP。使用公式进行最佳拟合线,可以将这种关系近似为:
GDP = 1.3232 x CS + 10447
GDP和消费者支出的单位均以数百万美元的价格为单位。
对于大多数目的,此公式非常准确,但由于每个国家经济的个体变化,它并不完美。以下图表根据上面的公式和世界银行记录的实际GDP进行了比较每个国家的预计GDP。
欧盟成员国的预计和实际GDP数字以及残留的正方形 | ||||
---|---|---|---|---|
国家 | 消费者花费最新价值(数百万) | GDP最新价值(数百万) | 预计GDP(基于趋势线) | 残留广场(投影 - 真实)^2 |
奥地利 | 309,018.88 | 433,258.47 | 419,340.782016 | 193,702,038.819978 |
比利时 | 388,436.00 | 521,861.29 | 524,425.52 | 6,575,250.87631504 |
保加利亚 | 54,647.31 | 69,889.35 | 82,756.320592 | 165,558,932.215393 |
克罗地亚 | 47,392.86 | 57,203.78 | 73,157.232352 | 254,512,641.947534 |
塞浦路斯 | 20,592.74 | 24,612.65 | 37,695.313568 | 171,156,086.033474 |
捷克共和国 | 164,933.47 | 245,349.49 | 228,686.967504 | 277,639,655.929706 |
丹麦 | 251,478.47 | 356,084.87 | 343,203.311504 | 165,934,549.28587 |
爱沙尼亚 | 21,776.00 | 30,650.29 | 39,261.00 | 74,144,381.8126542 |
芬兰 | 203,731.24 | 269,751.31 | 280,024.176768 | 105,531,791.633079 |
法国 | 2,057,126.03 | 2,630,317.73 | 2,732,436.162896 | 10,428,174,337.1349 |
德国 | 2,812,718.45 | 3,846,413.93 | 3,732,236.05304 | 13,036,587,587.0929 |
希腊 | 174,893.21 | 188,835.20 | 241,865.695472 | 2,812,233,450.00581 |
匈牙利 | 110,323.35 | 155,808.44 | 156,426.85672 | 382,439.239575558 |
爱尔兰 | 160,561.07 | 425,888.95 | 222,901.407824 | 41,203,942,278.6534 |
意大利 | 1,486,910.44 | 1,888,709.44 | 1,977,926.894208 | 7,959,754,135.35658 |
拉脱维亚 | 25,776.74 | 33,707.32 | 44,554.782368 | 117,667,439.825176 |
立陶宛 | 43,679.20 | 56,546.96 | 68,243.32 | 136,804,777.364243 |
卢森堡 | 35,953.29 | 73,353.13 | 58,020.393328 | 235,092,813.852894 |
马耳他 | 9,808.76 | 14,647.38 | 23,425.951232 | 77,063,312.875298 |
荷兰 | 620,050.30 | 913,865.40 | 830,897.56 | 6,883,662,978.71 |
波兰 | 453,186.14 | 596,624.36 | 6102.900448 | 181,671,052.608372 |
葡萄牙 | 190,509.98 | 228,539.25 | 262,529.805536 | 1,155,357,865.6459 |
罗马尼亚 | 198,867.77 | 248,715.55 | 273,588.833264 | 618,680,220.331183 |
斯洛伐克共和国 | 83,845.27 | 105,172.56 | 121,391.061264 | 263,039,783.25037 |
斯洛文尼亚 | 37,929.24 | 53,589.61 | 60,634.970368 | 49,637,102.7149851 |
西班牙 | 997,452.45 | 1,281,484.64 | 1,330,276.08184 | 2,380,604,796.8261 |
瑞典 | 382,240.92 | 541,220.06 | 516,228.185344 | 624,593,798.821215 |
右侧的列表示残差正方形 - 每个投影值及其实际值之间的平方差。这些数字看起来很大,但是对于任何其他可能的趋势线来说,它们的总和实际上低于RSS。如果另一个线路对于这些数据点具有较低的RSS,则该线将是最佳拟合线路。
平方的残差总和与R平方相同吗?
剩余的正方形总和(RSS)是解释的绝对量,而R平方是绝对变化量的绝对量,是总变异的比例。
RSS与错误估计的总和(SSE)相同吗?
剩余的正方形总和(RSS)也称为误差估计的总和(SSE)。
平方的残差和总和总和之间有什么区别?
正方形总和(TSS)衡量观察到的数据中有多少变化,而剩余的正方形总和衡量了观察到的数据和建模值之间误差的变化。在统计中,平方的残差总和和正方形总和(TSS)的值通常相互相比。
剩余的平方总和可以为零吗?
平方的残留总和可以为零。平方的残差总和越小,您的模型越适合您的数据;平方的残差总和越大,您的模型越差。零值意味着您的模型非常合适。
底线
平方的残留总和量化了观察到的数据点与回归模型的预测之间的差异,该模型计算为平方残差的总和。最小化RSS是回归分析中的一个基本目标,因为它代表了该模型准确捕获数据变异性的程度。