第24讲 一元线性回归分析
教学目的:1. 使学生理解随机变量Y与普通变量x间的相关关系; 2. 使学生理解Y与x间的一元线性回归模型Yabx; 3. 使学生掌握未知参数a和b的最小二乘估计方法; 4. 使学生掌握线性假设的显著性检验方法。
教学重点:使学生理解Y与x间的一元线性回归模型Yabx,掌握未知参数a和
b的最小二乘估计方法。
教学难点:使学生理解Y与x间的一元线性回归模型YabX。 教学时数:3学时。 教学过程:
第九章 回归分析
§9.1回归分析的基本概念
客观世界中普遍存在着变量间的关系,而变量间的关系一般可分为两类:确定性关系和非确定性关系。
确定性关系:可以用函数来表示的变量间关系。
非确定性关系:不能用函数来表示的变量间关系,也称为相关关系或统计关系。 如身高与体重之间的关系。一般来说,人高一些,体重要重一些,但同样身高的人,体重往往不相同。又如人的血压与年龄之间的关系,树高与生长时间之间的关系,商品的销售量与单价之间的关系等都是相关关系。
所谓回归分析是指通过试验和观测去寻找隐藏在变量间相关关系的一种数学方法,是研究变量间相关关系的一种有力的数学工具。
设随机变量Y(因变量)与普通变量x(自变量)之间存在着某种相关关系,由于
Y是随机变量,对于x的各个取值,Y有它的分布,我们不妨用F(yx)表示取确定值x时,对应的Y的分布函数。可以想象如果我们掌握了F(yx)随着x取值的变化而变化的规律,那么就能完全掌握Y与x之间的关系了,然而这样做往往非常复杂,甚至是不可能的。作为一种近似,我们转而去考察取确定值x时Y的数学期望,若此时Y的数学期望存在,则其值随x的取值而定,它是x的函数。将这一函数记为(x),称为Y关于
1
这样,我们就将讨论Y与x的相关关系的问题转化为讨论E(Y)(x)与x的回归函数。
x的函数关系问题了。
我们先看一个例子。
例1 为研究某一化学反应过程中,温度x(C)对产品得率Y(%)的影响,测得数据如下:
温度x(C) 100 110 120 130 140 150 160 170 180 190 得率Y(%) 45 51 54 61 66 70 74 78 85 这里自变量x是普通变量,Y是随机变量。画出散点图如下:
由散点图大致可以看出Y与x的相关关系可用线性函数(x)abx近似地描述,其中(x)为取确定值x时Y的数学期望。
§9.2 一元线性回归分析
1.一元线性回归模型
设随机变量Y与普通变量x间存在相关关系,且假设对于x的每一个取值有
Y~N(abx, 2)
其中a、b及2都是不依赖于x的未知参数。记Y(abx),则对Y做这样的正态假设,相当于假设
Yabx, ~N(0,2) (1)
2
其中未知参数a,b及2都是不依赖于x。(1)式称为一元线性回归模型,其中b称为回归系数。
(1)式表明,因变量Y由两部分组成,一部分是x的线性函数abx,另一部分是随机误差,是人不可控制的。
下面的任务是对a、b的估计。
2.参数a、b的最小二乘估计
取x的n个不全相同的取值x1,x2,,xn,作n次试验,得到样本
(x1,Y1),(x2,Y2),,(xn,Yn) (2)
和样本观测值
(x1,y1),(x2,y2),,(xn,yn) (3) 把样本观测值(3)代入(1)得
yiabxii , i1,2,,n
而使
Q(a,b)(yiabxi)2
2ii1i1nn
达到最小为原则对未知参数a和b的估计称为未知参数a和b的最小二乘估计,估计值
ˆ。这时称 ˆ和b记为aˆ ˆaˆbxy为Y关于x的经验回归方程,简称回归方程。其图象称为回归直线。
下面求未知参数a和b的最小二乘估计。 求Q(a,b)的极值点有
3
nQ2(yiabxi)0ai1 nQ2(yiabxi)xi0bi1得方程组
nnna(xi)byii1i1nnn (x)a(x2)bxyiiiii1i1i1解方程组得唯一解
nnnnnxiyi(xi)(yi)(xix)(yiy)i1i1ˆi1bi1nnnnxi2(xi)2(xix)2 (4) i1i1i1ˆn1nbˆˆyixiybxani1ni1n1nˆ为未知参数a和b的最小二乘估计值,而 ˆ和b其中xxi, yyi,ani1i1nnnnnxiYi(xi)(Yi)(xix)(YiY)i1i1ˆi1bi1nnn222nx(x)(xx) (5) iiii1i1i1ˆn1nbˆˆYixiYbxani1ni1ˆ为未知参数a和b的最小二乘估计量, YY。 ˆ和b中的aii1n(xx),这表明,关于样本值(x,y),(x,y),,(x,y)yb回归方程也可写成y1122nn的回归直线通过散点图的几何中心(x,y)。
为了计算上的方便,我们引入记号
4
1n Sxx(xix)(xi)2ni1i1i1nn1n22 Syy(yiy)yi(yi)2
ni1i1i1nnn1nSxy(xix)(yiy)xiyi(xi)(yi)ni1i1i1i12nnxi2这样,a和b的估计值可写成
ˆSxx bSxy1n1nˆ ˆyi(xi)bani1ni1例2 求例1中变量Y关于x的线性回归方程。
解 n10,经计算得
xi110i1450, yi673, x218500, y47225, xiyi101570
2i2ii1i1i1i110101010114502825010
1Sxy1015701450673398510Sxx218500故得
ˆSxxbSxy0.4830311ˆ67314500.483032.73935a1010
于是得到回归直线方程
ˆ2.739350.48303x y或写成
ˆ67.30.48303(x145) y
5
3.2的估计
由于
E{[Y(abx)]2}E(2)D()[E()]22
记yˆiyˆaˆbxˆxxi,称yiyˆii为xi处的残差。平方和 nˆnQe(yiy2i)(yiaˆbxˆi)2 i1i1称为残差平方和。
为了计算Qe,将Qe做如下分解
Qne(yi1iyˆi)2n[yi1iybˆ(xix)]2 =n(yˆniy)22b(xx)(yy)(bˆ)2i1i1iin(xix)2i1 =Syy2bˆSxy(bˆ)2Sxx再由bˆSxxS得Qe的另一个分解式 xyQeSyybSˆxy 相应的统计量为
QeSYYbSˆxY 可以证明
Qe2~2(n2) 于是
E(Qe2)n2
即
E(Qen2))2( 这样就得到了2的无偏估计量
6
6) (
ˆ2 Qe1ˆ] [SYYbS(7) xYn2n2例3 求例2中2的无偏估计。 解 由例2中的计算结果得
Syyi1nyi21n1(yi)24722567321932.1 ni110ˆ0.48303,故 又已知Sxy3985,bQˆxy7.23,ˆ2e7.230.90 QeSyybS8n24.线性假设的显著性检验
在以上的讨论中,我们假定Y关于x的回归函数(x)具有形式abx,在处理实际问题时,(x)是否为x的线性函数,首先要根据有关专业知识和实践来判断,其次就要根据实际观察得到的数据运用假设检验的方法来判断。这就是说,求得的线性回归方程是否具有实用价值,一般来说,需要经过假设检验才能确定。若线性假设(1)符合实际,则b不应为零,因为若b0,则(x)就不依赖于x了。因此,我们需要检 验假设H0: b0 H1: b0。
用t检验法来进行检验,可以证明:
ˆ~N(b,2) bSxx又由(6)式和(7)式知,
ˆ2(n2)Qe~2(n2)
2ˆ与Q相互,故有 且be2ˆbb2即
ˆ2(n2)Sxx2(n2)~t(n2)
7
ˆbbˆSxx~t(n2)
ˆˆ2。 其中 当H0为真时b0,此时
tˆbˆSxx~t(n2)
ˆ)b0,即得H的拒绝域为 且E(b0 |t|此处为显著性水平。
当假设H0被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著。回归效果不显著的原因可能有如下几种:
(1)影响Y的取值,除了x及随机误差外还有其它不可忽略的因素; (2)(x)不是x的线性函数,而是其它形式的函数; (3)Y与x不存在关系。
例4 检验例2中回归方程的回归效果是否显著,取0.05。
ˆ||bˆ ) (8) Sxxt2n(2ˆ0.48303, S8250, ˆ20.9。查表得 解 由例2和例3知bxxt0.052(n2)t0.025(8)2.3060
由(8)式知假设H0: b0的拒绝域为
|t|现在
| |tˆ||bˆSxx2.3060
0.4830382500.9046.252. 3060故拒绝H0: b0,认为回归效果是显著的。
8