计量经济学实验报告(多元线性回归分析)
实验2:多元线性回归分析
实验目的:学习利用Eviews建立多元线性回归模型,研究国家婴儿死亡率与妇女文盲率之间的关系。
一、实验内容:
1、先验的预期CM和各个变量之间的关系. 2、做CM对FLR的回归,得到回归结果。 3、做CM对FLR和PGNP的回归,得到回归结果。
4、做CM对FLR,PGNP和TFR的回归结果,并给出ANOVA。 5、根据各种回归结果,选择哪个模型?为什么?
6、如果回归模型(4)是正确的模型,但却估计了(2)或(3),会有什么后果?
7、假定做了(2)的回归,如何决定增加变量PGNP和TFR?使用了哪种检验?给出必要的计算结果。
二、实验报告
———-多元线性回归分析
1、问题提出
婴儿死亡率(CM)是指婴儿出生后不满周岁死亡人数同出生人数的比率.一般以年度为计算单位,以千分比表示。婴儿死亡率是反映一个国家和民族的居民健康水平和社会经济发展水平的重要指标,特别是妇幼保健工作水平的重要指标。
婴儿死亡率(CM)的高低是一个国家或地区社会经济多方面因素协调发展的结果。由于世界各国婴儿死亡率差别很大,所以就个国家社会综合发展状况,针对性的研究婴儿死亡率(CM)与女性识字率(FLR)、人均GNP(PGNP)、总生育率(TFR)之间的关系
2.指标选择
本次实验研究婴儿死亡率与妇女文盲率之间的关系,故应采用婴儿死亡率(CM)和女性识字率(FLR)作为指标。但影响婴儿死亡率的因素较复杂,尤其是经济发展状况、总生育率等也会对其产生重要影响,考虑到实验的准确性,故引入人均GNP(PGNP)和总生育率(TFR)相关数据。
3。数据来源
数据来源:教师提供 原始数据如下: 婴儿死亡率CM 128 204 202 197 96 209 170 240 241 55 女性识字率FLR 37 22 16 65 76 26 45 29 11 55 人均GNPPGNP 1870 130 310 570 2050 200 670 300 120 290 总生育率TFR 6.66 6。15 7 6.25 3.81 6.44 6。19 5. 5. 2。36 75 129 24 165 94 96 148 98 161 118 269 1 126 12 167 135 107 72 128 27 152 224 142 104 287 41 312 77 142 262 215 246 191 182 37 103 67 143 83 223 240 312 12 52 79 61 168 87 55 93 31 77 80 30 69 43 47 17 35 58 81 29 65 87 63 49 63 84 23 50 62 31 66 11 88 22 22 12 9 31 19 88 35 85 78 85 33 19 21 79 83 43 88 28 计量经济学实验报告(多元线性回归分析) 1180 3。93 900 1730 1150 1160 1270 580 660 420 1080 290 270 560 4240 240 430 3020 1420 420 19830 420 530 80 350 230 1620 190 2090 900 230 140 330 1010 300 1730 780 1300 930 690 200 450 280 4430 270 1340 670 410 5.99 3。5 7。41 4.21 5 5.27 5。21 6.5 6.12 6.19 5.05 6.16 1.8 4.75 4。1 6.66 7.28 8。12 5。23 5。79 6。5 7。17 6.6 7 3。91 6.7 4。2 5。43 6。5 6。25 7.1 7.1 7 3。46 5.66 4。82 5 4。74 8。49 6。5 6.5 1。69 3。25 7。17 3。52 6。09 28 95 121 41 115 62 186 45 47 85 178 45 142 67 表1
计量经济学实验报告(多元线性回归分析) 4370 2.86 1310 1470 300 3630 220 560 4.88 3. 6.9 4.1 6.09 7。2 4。数据处理
此次实验可直接使用数据,无需进行数据处理。
5。 先验的预期CM和各个变量之间的关系 【题1】 5-1预期CM与FLR存在负相关关系。
一方面,女性受教育程度越高,其知识越丰富,自我保护意识和能力就越强,则更善于保护自己和婴儿;另一方面,女性教育程度越高,其就业机会与收入获得途径就越多,可以更好的保障自己和婴儿的生活.因此,我们预期FLR的提高会导致CM降低。
5-2预期CM与PGNP存在负相关关系。
人均GNP的提高使人们的物质生活水平得到提高,改善了人民、食、住、行等诸方面的条件,特别是使人们摄取的营业素增加,营养素结构合理,从而增加人们的体质;使人们从繁重的体力劳动和恶劣的工作环境中解脱出来,有充足的精力和时间来关心自己及其后代的身体健康,提高生活质量。因此,我们预期PGNP的提高会导致CM降低.
5—3预期CM与TFR存在正相关关系。
总生育率直接或间接地影响着婴儿死亡率,总生育率提高,人口数量上升,人均GNP,人均受教育程度等一系列人均享受的权利和福利都会有所下降。因此,我们预期TFR的提高会导致CM降低。
6。数据分析
6-1 对各个变量数据进行观察分析
,0FLR1000,PGNP0,TFR0,与经济社会现实相符,不存在与经观察数据可知0CM1000济意义相违背的数据,所以可以保证我们所取的各项数据满足此次实验要求。
6-2 变量的相关性
①CM与FLR的相关性
FLR CM 计量经济学实验报告(多元线性回归分析)
FLR CM 1。000000 —0。818285 1.000000 —0.818285
表2
图1
由散点图(图1)和相关系数(表2)知,这两组数据的相关性较高,满足实验要求,且CM与FLR之间存在负相关关系,与预期相反。
②CM与PGNP的相关性
PGNP CM PGNP CM
1。000000 —0.407697 -0.407697 1.000000 图2 表3
由散点图(图2)和相关系数(表3)知,这两组数据有一定的相关性,满足实验要求,且CM与PGNP之间存在负相关关系,与预期相同。
③CM与TFR的相关性
TFR CM 计量经济学实验报告(多元线性回归分析) TFR CM 1。000000 0.671135 0。671135 1.000000
图3 表3
由散点图(图3)和相关系数(表3)知,这两组数据的相关性较高,满足实验要求,且CM与TFR之间存
在正相关关系,与预期相同。
总结:CM与FLR之间存在负相关关系,与PGNP之间存在负相关关系,与TFR之间存在正相关关系。
7.建立模型及模型检验
7-1 CM对FLR的回归模型建立及检验 【题2】
(1)建立回归模型
根据图1,建立如下线性模型:CMi01FLRii 得出回归结果:
图4
回归方程式:CM2.390496*FLR263.8635【回归模型(2)】
其中:
Se(0.213263)(12.22499)
计量经济学实验报告(多元线性回归分析)
t(11.20917)(21.58395) p(0.0000)(0.0000)
R20.669590 F125.55
(2)模型检验 ①经济意义检验
所估计的参数1= - 2。390496,说明女性识字率(FLR)与婴儿死亡率(CM)负相关,且在其他
条件不变的情况下女性识字率(FLR)增加1%,可导致婴儿死亡率(CM)减少2。390496%。
^ ②统计检验
A、拟合优度检验:
可决系数R20.669590 ,说明所建模型整体上对样本数据还不算很好,即解释变量CM对 FLR的大部分差异作出了解释,但可能还有其他因素影响婴儿死亡率.
B、t检验:
对回归系数的t检验:针对H0:0=0 H1:0≠0和H0:1=0 H1:1≠0,由图4可知:估计的回归系数0的标准误差和t值分别为Se(0)=12。22499, t(0)=21。58395;1的标准误差和t值分别为Se(1)=0。213263, t(1)=-11.20917.取α=0.05,查t分布表得自由度为n—2=—2=62的临界值t0.025(62)=2.000,因为t(0)=21。58395>t0.025(62)=2。000所以拒绝原假设H0:0=0;因为t(1)=-11。20917〈— t0.025(62)=-2。000,所以拒绝原假设H0:1=0.这说明在95%的置信水平下,解释变量女性识字率(FLR)通过了显著性检验,即解释变量女性识字率(FLR)对婴儿死亡率
(CM)有显著影响。
^^^^^^^^7-2 CM对FLR和PGNP的回归模型建立及模型检验 【题3】
(1)建立回归模型
根据图2,建立如下线性模型:CMi01FLRi2PGNPii 得出回归结果:
计量经济学实验报告(多元线性回归分析)
图5
回归方程式:CM2.231586*FLR0.0057*PGNP263.16【回归模型(3)】 其中:
)(0.002003)(11.59318) Se(0.209947)(2.818703)(22.74109) t(10.62927)(0.0065)(0.0000) p(0.0000R20.707665 F73.83254
(2)模型检验 ①经济意义检验
所估计的参数1,2均为负数,说明女性识字率(FLR)和人均GNP(PGNP)与婴儿的死亡率(CM)负相关,与预期假设相同.1=—2。231586表示,在其他变量保持不变的情况下,女性识字率每增加1%,婴儿死亡率减少2。231586%。2= — 0。0057表明,在其他变量保持不变的条件下,人均GNP每增加1%,婴儿死亡率减少0.0057%。
^^^^②统计检验 A、拟合优度检验:
可决系数R2=0。707665,说明所做模型对样本数据大体上拟合不是很好,可能还有其他因素对婴儿死亡率产生影响.
计量经济学实验报告(多元线性回归分析)
B、t检验:
对回归系数的t检验:在显著性水平α=0.05,查t分布表得自由度为n-3 = – 3 = 61的临界值t0.025(61)=2。000, 由图5知t(1)=-10.62927 〈 — t0.025(61)=- 2。00 t(2)=—2。818703 〈 - t0.025(61)= -2.0000,。说明在95%的置信水平下,解释变量女性识字率(FLR) 和人均GNP(PGNP)均通过了显著性检验,即解释变量女性识字率 (FLR) 和人均GNP(PGNP)对婴儿死亡率(CM)有显著影响.
^^7—3 CM对FLR、PGNP和TFR的回归模型建立及模型检验,并给出ANOVA。 【题4】 (1)建立回归模型
根据图2,建立如下线性模型:CMi01FLRi2PGNPi3TFRi 得出回归结果:
图5
回归方程式:CM1.768029FLR0.005511PGNP12.868TFP168.3067【回归模型(4)】 其中:
Se(0.248017)(0.001878)(4.190533)(32.165)
)(2.934275)(3.070883)(5.117003) t(7.128663)(0.0047)(0.0032)(0.0000) p(0.0000R20.747372 F59.16767
(2)模型检验 ①经济意义检验
计量经济学实验报告(多元线性回归分析)
所估计的参数1,2均为负数,3为正数,说明女性的文化率(FLR)和人均GNP(PGNP)与婴儿的死亡率(CM)负相关,总生育率(TFR)和婴儿的死亡率(CM)正相关,与预期假设相同。1=– 1.768029
^^^^2=— 0.005511表示,在其他变量保持不变的情况下,女性识字率每增加1%,婴儿死亡率减少 1.768029%。
表明,在其他变量保持不变的条件下,人均GNP每增加1%,婴儿死亡率减少— 0。005511%.3=12.868表明,总生育率增加1%,婴儿死亡率增加12.868%。
^^②统计检验 A、拟合优度检验:
可决系数R2=0.747372 ,说明所做模型整体对样本数据拟合较好,即解释变量 FLR、PGNP和TFR对CM的大多数差异作了解释,但该模型仍有进一步改良的空间。
B、t检验:
在显著性水平α=0.05,查t分布表得自由度为n-4 = – 4 = 60的临界值t0.025(60)=2。000,
由图6知t(1)=—7.128663 〈 — t0.025(60)= -2.000, t(2)=-2.934275 〈 — t0.025(60)= —2。0000, t(3)= 3.070883〉t0.025(60)= 2.000.说明在95%的置信水平下,解释变量女性识字率(FLR) ,人均GNP(PGNP)和总生育率(TFR)均通过了显著性检验,即解释变量女性识字率(FLR) 、人均GNP(PGNP) 、总生育率(TFR)对婴儿死亡率(CM)均有显著影响。
^^^(3)给出ANOVA:
四变量回归模型的方差分析表:(检验联合假设b2=b3=b4=0或R=0) 变异来源 平方和 自由度 MSS=ss/d.f 2
来自回归ESS jyixij j1k1k-1 jyixij k12i来自残差RSS 总计TSS e n-k n—1 e 2ink y2i 表4
22
由于ESS=R*TSS,RSS=(1-R)*TSS,可知:
ESS/d.f(2yixi23yixi34yixi4)/3 F2RSS/d.fei/60F服从分子自由度为3,分母自由度为n-4的F分布;F分布用于联合统计检验。 22
H0:R=0,H1:R≠0,得
计量经济学实验报告(多元线性回归分析)
ESS/3R2/30.747372/3F60.15 2RSS/(n4)(1R)/61(10.747372)/61又当α=5%,d。f=3.60时F分布的临界值约为2。76
2
∵F=60.15〉2.76, ∴拒绝H0:R=0。
从上述方差分析以及F检验所得出的结果显示实验所得出的结果拒绝零假设:妇女文盲率、人均国民生产总值和总生育率联合对婴儿死亡率没有影响;实验结果不仅拒绝零假设:FLR(妇女文盲率)、PGNP(人均国民生产总值)和TFR(总生育率)各自是统计不显著的,而且拒绝零假设:FLR(妇女文盲率)、PGNP(人均国民生产总值)和TFR(总生育率)是联合不显著的。因此F联合检验通过。
8、结果解释
8-1根据各种回归结果,选择哪个模型?为什么?【题5】
根据各种回归结果,应选择CM对FLR,PGNP和TFR的回归模型。
因为从各个回归结果中的可决系数 看,CM对FLR的回归模型中 =0。669590 ,CM对FLR和PGNP回归模型中 =0。707665,CM对FLR,PGNP和TFR的回归模型中 =0。747372,因为CM对FLR,PGNP和TFR的回归模型中 最大,对样本数据的拟合程度最高
8—2、如果回归模型(4)是正确的模型,但却估计了(2)或(3),会有什么后果?【题6】
如果回归模型CM对FLR,PGNP和TFR是正确的模型,但却估计了前两种回归模型,就忽略了影响婴儿死
亡率的其他重要因素,而且根据上面各模型的分析可知正确回归模型中FLR,PGNP和TFR这三个解释变量的系数的绝对值都小于其他模型,采用前两种回归模型会使模型中仅有的解释变量对被解释变量的影响增大,使回归模型的误差可能很大,失去其意义,甚至得出与实际相反的结论.
8—3、假定做了(2)的回归,如何决定增加变量PGNP和TFR?使用了哪种检验?给出必要的计算结果。【题7】
在实际中,为了解释某个现象,往往面临着在若干解释变量间进行取舍的问题。通常的做法是:只要校正判定系数R值增加,就可以增加新的解释变量。如果增加变量系数的t值大于1,修正判定系数就会增加,这里的t值是在零假设:总体系数为零下计算得到的。
2①增加变量PGNP
CMi01FLRii *
CMi01FLRi2PGNPii **
**可以看做*的受约束回归,此时H0:2=0,H1:2≠0,F[(21),(3)].
F
(RSSRRSSU)RSSU(KUKR)
(nku1) =
(120163.0106315.6)106315.6611
计量经济学实验报告(多元线性回归分析)
=7.945
显著性水平为5%的情况下,自由度为(1,61)的F统计量的临界值为F0.05=4。00〈7.945,所以拒绝原假设
H0:2=0,接受2≠0,PGNP对CM有显著影响,因此加入PGNP这一变量。
②增加变量TFR
CMi01FLRi2PGNPi3TFRi ***
***可以看做**的受约束回归,此时H0:3=0,H1:3≠0,F[(32),(4)]。
F(RSSRRSSU)RSSU(KUKR)
(nku1) =
(106315.691875.38)91875.38601
=9.43
显著性水平为5%的情况下,自由度为(1,60)的F统计量的临界值为F0.05=4。00<9.43,所以拒绝原假设H0:
3=0,接受3≠0,TFR对CM有显著影响,因此加入解释变量TFR.
9、实验总结
(1)现实生活中的大多数经济现象并不只受一种因素制约,多元线性回归模型某种意义上比一元线性回归模型更具普适性.由于存在多个解释变量,需要考虑变量选择等问题,只有经过不断的调试才会找到合适的模型。在模型建立并得出参数后还要对模型进行经济检验和统计检验,以确定模型的适用性。
(2)在实验之前先判断了先验的预期CM对各个变量间的关系,但是在具体的实验过程中得到的数据显示结果与预期有部分冲突,说明该实验所得到的模型不是一个设定型模型,实验存在着设定误差。这是因为解释变量(妇女识字率FLR)与被解释变量(婴儿死亡率CM)之间的因果关系并不确定,只是我们从理论上进行的预测。
(3)进行多元线性回归分析时,解释变量多少的界定标准主要来自于校正判定系数R2是否随着解释变量的逐渐增多而逐渐增大,同时考虑校正后的模型是否通过了统计检验,特别是F统计检验。本实验模型(4)中三个解释变量确实是影响婴儿死亡率CM的重要因素,但还有继续增加解释变量的空间。
三、实验点评
此次试验最终选择的回归模型(4)的可决系数仍不是很高,建议进行模型的相关的扩展性分析,进一步分析婴儿死亡率受到其他因素的影响,完善多元回归模型。