2、一元线性回归
[一元回归方程] 自变量x与变量y对应的观测值为
如果变量间存在着线性关系,则可用直线

来拟合它们之间的变化关系。由最小二乘法,a,b应使
最小值
得

式中


方程
称为回归方程(或回归直线),b称为回归系数。
[相关系数及其检验表] 相关系数rxy反映了变量x和y之间的线性关系的密切程度,它是用下式定义
其中
(在不致误会时,rx y简记为r)。显然
。当
时,称为完全线性相关;当
时,称全无线性相关;当
越接近1,线性相关越大。
下表给出相关系数的起码值(它与观测次数n及所给信度
有关),当
大于表中相应的值,所配的直线才有意义。
N—2 | =5% | =1% | n-2 | =5% | =1% | n-2 | =5% | =1% |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | 0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.632 0.602 0.576 0.553 0.532 0.514 0.497 0.482 | 1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708 0.684 0.661 0.641 0.623 0.606 | 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | 0.468 0.456 0.444 0.433 0.423 0.413 0.404 0.396 0.388 0.381 0.374 0.367 0.361 0.355 0.349 | 0.590 0.575 0.561 0.549 0.537 0.526 0.515 0.506 0.496 0.487 0.478 0.470 0.463 0.456 0.449 | 35 40 45 50 60 70 80 90 100 125 150 200 300 400 1000 | 0.325 0.304 0.288 0.273 0.250 0.232 0.217 0.205 0.195 0.174 0.159 0.138 0.113 0.098 0.062 | 0.418 0.393 0.372 0.354 0.325 0.302 0.283 0.267 0.254 0.228 0.208 0.181 0.148 0.128 0.081 |
注意,当观测次数n很大时 ,相关系数可用下述方法近似求得:将观测数对(xi , yi) (i=1,2,···,n)描在坐标纸上,先作一水平直线使位在直线的上下点数相等,再作一垂直线使左右点数相等,这两条直线(尽量使两直线上没有点)将平面分成四块(图16.5)设落在右上方,左上方,左下方,右下方的点数分别为n1 ,n2,n3 , n4,设
n+=n1+n3
=n2+n4
那末相关系数近似为

[剩余标准差]

称为剩余标准差,它描述回归直线的精度:对于试验范围的每个x,有95.4%的y值落在两条平行直线

之间(图16.6);有99.7%的y值落在两条平行直线

之间.
[一元回归计算步骤] 为了方便计算,将lxx,lyy ,lxy改写成

并将数据整数化.即令

经整数化后,有
, 

于是列表计算如下:
序号 |  |  |  |  |  |
1 2  n |     |     |     |     |     |
 |  |  |  |  |  |
|  |  |  |  |  |
 |   |   |   |   |   |
记号 |    | = | = -  | = -  | = -  |
| 计 算 结 果 | 回归系数  常数项  回归方程  相关系数  剩余标准差 | |
| | | | | | | | |
[一元线性回归的方差分析] 将自变量x看作单因素,对每个xi(i=1,2,···,n)作k次重复试验得到数据yij(i=1,2,···,n; j=1,2,···,k),记录如下:
 | yij |  |
x1 x2 xn | y11 y12 ··· y1k y21 y22 ··· y2k ···  yn1 yn2 ··· ynk |     |
| |  |
按照数对
求出回归方程


y的总平方和为
记作

上述右边的S回称为回归平方和,它是由于x的变化使y也随之变化而引起的;S误称为误差平方和,它是由试验误差引起的;S余称为剩余平方和,它是由其他随机因素或回归直线配得不适当而引起的.
同单因素方差分析类似,作一元线性回归方差分析表如下:
方差来源 | 平方和 | 自由度 | 均 方 | 统计量 | 置信限 | 统计推断 |
回归 剩余 误差 | S回 S余 S误 | k n n | s回   |   |   | 当 时,认为影响不显著; 当 时,认为影响显著 |
总平方和 | S总 | nk | | | | |
检验
时,若影响不显著,则表明剩余平方和基本上是试验误差等随机因素引起的;若影响显著,则表明可能存在另外不可忽略的因素,或者x与y不是直线相关,或者x与y无关。这时求出的回归直线不能刻划x与y之间的关系,需进一步查明原因,重新配线。
检验
时,若影响显著,则表明x与y之间有线性关系;若影响不显著,则需重新配线。
S总,S回,S余,和S误按下列公式计算(可先将数据整数化
,
:
S总=
S回=
S余=
S误= S总
回
余
式中
