- 伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解
- 圣才电子书
- 8713字
- 2021-05-21 18:12:38
3.2 课后习题详解
一、习题
1.利用GPA2.RAW中有关4137名大学生的数据,用OLS估计了如下方程:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image384.png?sign=1739318036-H01eDBYUFGlj455bap2D5bw538NPwQye-0-77f97859d1acaf1d55c81138ceb9440f)
其中,colgpa以四分制度量,hsperc是在高中班上名次的百分位数(比方说,hsperc=5,就意味着位于班上前5%之列),而sat是在学生能力测验中数学和语言的综合成绩。
(i)为什么hsper的系数为负也讲得通?
(ii)当hsperc=20和sat=1050时,大学GPA的预测值是多少?
(iii)假设两个在高中班上具有同样百分位数的高中毕业生A和B,但A学生的SAT分数要高出140分(在样本中相当于一倍的标准差),那么,预计这两个学生的大学GPA相差多少?这个差距大吗?
(iv)保持hsperc不变,SAT的分数相差多少,才能导致预测的colgpa相差0.50或四分制的半分?评论你的结论。
答:(i)在高中班上名次的百分位数(hsperc)越小,学生在高中排名就越好,越大则排名越差。其它条件不变的情况下,学生在高中的排名越差,他/她预计的GPA将越小。
(ii)将hsperc=20,sat=1050代入估计方程可得:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image385.png?sign=1739318036-Ashrg5LsHWH4LzV4IucU4fH4lUWfuN1E-0-a838821373b59e16dc0b7af0cfdcfb14)
(iii)预计中A的成绩比B的成绩高出
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image386.png?sign=1739318036-8nadTbXzWrfigFllaU3IPZ2sAZCYHzd7-0-ee1520b6588d92bc40248d822aff8f78)
这个差距较大。
(iv)hsperc不变
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image387.png?sign=1739318036-AewToVvBGfFpKRiosA7auEVVy5HgqA38-0-f11c42f096dd67a1c1b2f58941f320d5)
当∆colgpa=0.5时
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image388.png?sign=1739318036-KYEvd6pdXsCHlPKcwxaK7Ed7Ncj9oYE4-0-0349ef0373d38c039705571c964fb1a4)
在其他条件不变的情况下,SAT分数的差异为约2.5个标准差,才能预测colgpa相差0.50。
2.用WAGE2.RAW中有关男工人的数据估计了如下方程:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image389.png?sign=1739318036-0Nw9H3dEP0AZjVVJ3PA5eRZMXuea5SvF-0-163b133c335ee958bff05cce33a35d5b)
其中,educ是受教育年数,sibs是兄弟姐妹的个数,meduc是母亲受教育的年数,feduc则是父亲受教育的年数。
(i)sibs是否具有预期的影响?请给出解释。保持meduc、feduc不变,为了使预测的受教育程度减少一年,需要sibs增加多少?(这里不要求答案为整数。)
(ii)讨论对meduc的系数的解释。
(iii)假设一个男工人A没有兄弟姐妹,其父母都接受了12年的教育。另一个男工人B也没有兄弟姐妹,但其父母都接受了16年的教育。预计B和A所接受教育的年数差别为多少?
答:(i)sibs具有预期的影响。家庭中兄弟姐妹的数量越多,每一个小孩受教育的年数都会减少。为了使预测的受教育程度减少一年,需要增加。
(ii)变量sibs和feduc保持不变,则母亲受教育的年数每增加一年,预计儿子受教育年数将会增加0.131年。因此母亲受教育年数增加4年,她的儿子受教育年数增加约半年(0.524)。
(iii)因为兄弟姐妹的个数是相同的,但是meduc和feduc均不相同,故meduc和feduc的系数都要考虑到,因此B和A所接受教育的年数差别为:(0.131+0.210)×4=1.364(年)。
3.下面这个模型是比德尔和哈默梅什(BiddleandHamermesh,1990)所用多元回归模型的一个简化版本,原模型研究睡眠时间和工作时间之间的取舍,并考察影响睡眠的其他因素:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image391.png?sign=1739318036-MeQ1YFRLDUygQiqG2Aot3tOZnMxv6QTa-0-d609e8eb25f2db14512e07376a485776)
其中,sleep和totwrk都以分钟/周为单位,而educ和age则以年为单位。(也可参见计算机练习C3。)
(i)如果成年人为工作而放弃睡眠,的符号是什么?
(ii)你认为和
的符号应该是什么?
(iii)利用SLEEP75.RAW中的数据,估计出来的方程是
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image393.png?sign=1739318036-vqYD0WmJ67d2fR1zBRvga8FHrtPkzcoY-0-8cb141832fb15a7f25969d7739e3e9d3)
如果有人一周多工作5个小时,预计sleep会减少多少分钟?这是一个很大的舍弃吗?
(iv)讨论educ的估计系数的符号和大小。
(v)你能说totwrk,educ和age解释了sleep的大部分波动吗?还有什么其他因素可能影响花在睡眠上的时间?它们与totwrk可能相关吗?
答:(i)的符号应该为负。
(ii)的符号不明确。一些人认为更高教育水平的人想获得更多,其他条件相同的情况下,他们休息的较少,此时
。睡眠与年龄之间的关系比这个模型描述的更为复杂,经济学家不能很好的判断这件事情。
(iii)因为totwrk都以分钟/周为单位,因此将时转化为分可得
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image395.png?sign=1739318036-igxPfBUWv1s9YCMSVFibpAvMwmZjji6a-0-1ca9ee79791c166b06c0b5293e6053fb)
预计睡眠将会下降0.148×300=44.4(分)。对一周而言,这并不是一个很大的变化。
(iv)受教育年限educ越多暗示着预计睡眠时间越少,但是这种影响是很小的。假设在其他条件不变的情况下,大学和高中的区别是四年间大学毕业生每周睡眠时间比高中少45分钟。
(v)不能,totwrk、educ和age只解释了11.3%的sleep的变异。一个包含在误差项中的重要因素是总体健康状况。另一个重要因素是婚姻状况,以及是否有孩子。健康、婚姻状况、孩子的数量和年龄与totwrk是相关的。(例如,身体状况不好的人倾向于工作的时间比较少)
4.刚从法学院毕业的学生的起薪中位数由下式决定:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image396.png?sign=1739318036-QmvQQGZ3dDjqw7GQvfHTq83qNwYZYZt9-0-ff01a60f2d359b602eb92b3955eda189)
其中,LSAT*是整个待毕业年级LSAT成绩的中位数,GPA是该年级大学GPA的中位数,libvol是法学院图书馆的藏书量,cost是进入法学院每年的费用,而rank是法学院的排名(rank=1的法学院是最好的)。
(i)解释为什么我们预期。
(ii)你预计其他斜率参数的符号如何?给出你的理由。
(iii)使用LAWSCH85.RAW中的数据,估计出来的方程是
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image398.png?sign=1739318036-svSS12maU8N3IEThNMkQKg7OS04zb7JH-0-49422db8728874576edcef4e0a489570)
在其他条件不变的情况下,预计GPA中位数相差1分会导致薪水有多大差别?(用百分比报告你的答案。)
(iv)解释变量log(libvol)的系数。
(v)你是否认为,应该进入一个排名更高的法学院?从预计的起薪来看,排名相差20位的价值有多大?
答:(i)法学院的排名越低,说明该学院的声望越差,这会降低起薪。例如,排名100意味着还有99所学校更好。因此预期。
(ii)预计,
,因为LSAT和GPA都衡量了待毕业班级的质量,平均来说,更好学生进入法学院使得预计会挣得更多。
,法学院图书馆的藏书量以及进入法学院每年的费用都衡量了学校的质量。(入学成本的作用没有藏书量那么明显,但反映了教员和硬件设施的质量。)
(iii)预计GPA中位数相差1分会导致薪水增加24.8%。
(iv)log(libvol)的系数的含义:图书馆的藏书量每增加1%,法学院待毕业学生的起薪将增加0.095%。
(v)最好应该进入一个排名更高的法学院。
排名相差20位预测起薪差异为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image402.png?sign=1739318036-LJ50NmZPhs6VzIXNXVdu20hAuAjTJCd1-0-e1c29aa69482c832d56d3b2a0d761dac)
5.在一项调查大学GPA与在各种活动中折耗费时间之关系的研究中,你对几个学生分发了调查问卷。学生被问到,他们每周在学习、睡觉、工作和闲暇这四种活动中各花多少小时。任何活动都被列为这四种活动之一,所以对每个学生来说,这四个活动的小时数之和都是168。
(i)在模型
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image403.png?sign=1739318036-WBsC5AgazkLWiiTgYXay3rjtuvkjlfw5-0-2924f726749adb9f90b7c08871537911)
中,保持sleep,work和leisure不变而改变study是否有意义?
(ii)解释为什么这个模型违背了假定MLR.3。
(iii)你如何才能将这个模型重新表述,使得它的参数具有一个有用的解释,而又不违背假定MLR.3。
答:(i)没有意义。因为四种活动的总时间固定为168小时,其他三种不变,则study时间也不会改变。
(ii)从(i)可知,study是其他三种活动的线性函数:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image404.png?sign=1739318036-9OXAun04N7t6NHJ6aiq9ZDH2SHlnoxBx-0-1db6eeb88f7e181253f71623116b66aa)
这种关系对于每一个观测值都成立,因此违背了MLR.3。
(iii)应该去掉一个解释变量leisure,模型变为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image405.png?sign=1739318036-iZCyAaHC3Bf46bGxIVLAt8j1gItvdhjm-0-4f5db16c91b774f4135bbdc6d15f659b)
是study的参数,当其他条件不变的情况下,study每增加一小时,GPA增加
。但是如果学习时间增加一小时,leisure时间必须减少一小时。其他参数解释与此类似。
6.考虑含有三个自变量的多元回归模型,并满足假定MLR.1到MLR.4,
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image406.png?sign=1739318036-FSCSfHtWFcyx6jhDilYWEFVvrVNmCEqg-0-9a6c9c34d408bc640ebc8164fc75cc89)
你对估计x1和x2的参数之和感兴趣;把这个和记为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image407.png?sign=1739318036-mATtdnaMEuOMIz93t2VVT7lLE28qkaNd-0-21f576ff842a49319418af756b053da9)
(i)证明是
的一个无偏估计量。
(ii)求出用、
和
表示的
。
答:(i)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image413.png?sign=1739318036-nXAlFVWCeABNG8jTBWIguiED54N47XBb-0-a9a09bced04b18717eba5366673477eb)
(ii)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image414.png?sign=1739318036-tkFGeaOppN8nTA8StPq3nmVeVCTrxjPF-0-8e52b2c6eaa739a982849374ece1314d)
7.下面哪些因素会导致OLS估计量出现偏误?
(i)异方差性。
(ii)遗漏一个重要变量。
(iii)模型中同时包含的两个自变量之间的样本相关系数达到0.95。
答:只有(ii)才会导致OLS出现偏误,且所遗漏的变量必须与模型中包含的变量是相关的。模型中出现异方差并不影响OLS估计量的无偏性,仅影响估计量的方差。样本解释变量之间共线性的程度并不影响高斯-马尔科夫假定。只有当自变量之间完全共线时,才会违背MLR.3。
8.假设制造业中每个工人的平均生产力(avgprod)取决于培训的平均小时数(avglrain)和工人的平均能力(avgabil)两个因素:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image415.png?sign=1739318036-raFD2CRGIrIZgfvUnkvAxxqOk7lj8sRz-0-9ea6c6c20faa9d0342b1f809d1513acb)
假设这个方程满足高斯-马尔科夫假定。如果将培训津贴给了那些工人能力较差的企业,以致avgtrain和avgabil呈负相关,那么,将avgprod对avgtrain进行简单回归所得到的,可能出现什么样的偏误?
答:利用教材表3-2。因为,且
。因此
存在一个向下的偏误,即
。简单回归估计低估了培训时间的影响。即使
,
也可能是负的。
9.下面的方程描述了以百分比表示的四年级数学考试通过率、每个学生的支出(exppp,单位是美元)、符合拥有免费或低价午餐条件的学生比例(lunch)之间的关系:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image420.png?sign=1739318036-sQyzCHUZKuXsyDs8s7PMfbMZt535yFTw-0-d3032464810ddc77f40950ce981f50d2)
(i)说明是在exppp增加10%时,math4的百分点变化(其他条件不变的情况下)。
(ii)如果在贫穷的学校每个学生的支出更高,那么log(exppp)和lunch是正相关还是负相关?
(iii)用MEAP01.RAW中的数据估计了以下方程:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image422.png?sign=1739318036-3dzNLeVIioIG0SlJDZLJOsOSLgn8Ghfk-0-abe53d1c7d7c28898e9b9120c8f5886b)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image423.png?sign=1739318036-Oay11rEaZEjKIwJNvu50qlP0EZC6OdmF-0-4708d5c60524dabca30cba289d88e6b8)
通过这些简单回归和多元回归结果,判断在这个样本中log(exppp)和lunch是正相关还是负相关。
答:(i)表示exppp变动1%时,math4变动
%。
表示exppp增加10%时,math4增加
。
(ii)如果在贫穷的学校每个学生的支出更高,那么log(exppp)和lunch是正相关。因为支出增加,获得低价午餐条件的学生比例将增加。
(iii)通过这些简单回归和多元回归结果,判断在这个样本中log(exppp)和lunch是正相关。根据关系
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image425.png?sign=1739318036-j2jobjaMiPNKQgpSlgnglyOuVj0r8ZDg-0-aa2941ebccb067408934c8e1073a21de)
其中是简单回归的估计值,
、
是多元回归的估计值,
是将log(exppp)对lunch进行回归的斜率。代入回归结果得
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image426.png?sign=1739318036-Csme3TTeSGTLFBShMJE7qU8Y4mfEQJ71-0-4a39dbb28a6429cb4ef65b84778e30f2)
可知大于0。
10.假设你对估计其他条件不变情况下y和x1之间的关系感兴趣。为此,你可以搜集两个控制变量x2和x3的数据。(为真实起见,你可以想象y为期末考试分数,x1为到课率,x2为上学期之前的GPA,x3为SAT或ACT分数。)令表示y对x1进行简单回归的系数估计值,而
为y对x1,x2,x3进行多元回归的斜率估计值。
(i)若样本中x1与x2和x3高度相关,且x2和x3对y具有很大的偏效应,你会预计和
是十分类似还是十分不同?请解释。
(ii)若x1与x2和x3几乎无关,但x2和x3高度相关,你会预计和
是十分类似还是十分不同?请解释。
(iii)若样本中x1与x2和x3高度相关,且x2和x3对y具有很小的偏效应,预计和
哪个更小?请解释。
(iv)若x1与x2和x3几乎无关,x2和x3对y具有很大的偏效应,并且x2与x3高度相关,预计和
哪个更小?请解释。
答:(i)由对遗漏变量的讨论可知,因为x1与x2和x3高度相关,x2和x3对y具有很大的偏效应,简单和多元回归中x1的系数将会有很大的差异。
(ii)若x1与x2和x3几乎无关但x2和x3高度相关,预计和
十分类似。因为x1与x2和x3的相关程度很低,则x2和x3的相关程度对多元回归中对x1的回归估计没有直接的影响。
(iii)在本例中,x2和x3对y有一个很小的偏效应,并且x2和x3与x1高度相关,加入x2和x3大幅度增加了x1的系数的标准误,因此
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image429.png?sign=1739318036-bG29NrC7vLwaLXXb5y7VUyYpEz73JAxu-0-613f0569d1ede8e3d0dd58d174516120)
(iv)更小。在模型中加入x2和x3将会减少残差,而不导致多重共线性(因为x1几乎不和x2和x3相关),因此可得
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image430.png?sign=1739318036-5d9t4CQ2xRgl6k8E3ZnHjsqyYOaCmiHy-0-a1715ae273fe87f18c59f684b8efff2d)
x2和x3的相关关系并不影响。
11.假设决定y的总体模型是
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image432.png?sign=1739318036-sDyeAx176FO4aFeq4xsJjaGo4XPYWhhT-0-bdf88d774a7e5a4e8d690151096826d4)
而这个模型满足假定MLR.1到MLR.4。但我们估计了漏掉x3的模型。令,
和
为y对x1和x2回归的OLS估计量。(给定样本中自变量的值)证明
的期望值是:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image433.png?sign=1739318036-zZlKW2z7exICdJAEjs6nSnrxDtnKuHyy-0-de9d5369ce2a899c6e536c591d1a222d)
其中是x1对x2回归所得到的OLS残差。[提示:
的公式来自方程(3.22)。将
代入这个方程。经过一些计算之后,将xi3和
视为非随机量而取期望。]
答:由教材公式3.22可得:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image437.png?sign=1739318036-ilnAt18BgVsuGdOJMTimcE7wJBWFf8yI-0-af23fa6bda4fee496d5c19ab96440c8c)
代入真实的模型可得:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image438.png?sign=1739318036-6vaTNP5p8bw63qqtkwCjoFgrXVEBfZhg-0-f687f06df156ea93ef0aa670c27991e8)
因为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image439.png?sign=1739318036-NQXh0u3k80H53CT6srZ9LVmUs8WrEjgA-0-fbde4e1438af3d0bb65aba6e2ebb3dff)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image440.png?sign=1739318036-uf1Pc7rA4m8Y0Ob3UZsUmHz1RCc0mVJQ-0-7065f665c64612a8f9d5a16c64112d99)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image441.png?sign=1739318036-uv4CzIGlfZdLC3DNtkXv7LufaxmHzMeQ-0-eb697904352e8149cc96f653814e104c)
是xi1对xi2回归的残差,
有零均值,且与xi2无关。因此分子简化为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image442.png?sign=1739318036-deEum2QMMiS2XsCbUP6oPbINe0i9gbtv-0-4363314e0d536e1be0e8e2b234c69626)
将分子代入原式得:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image443.png?sign=1739318036-uefcrBWedvPlojAkoG4OWQzQw9H39DQj-0-f77bf656afc4516122eeab0c4a0ffe22)
由于随机误差项的均值为0,因此
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image444.png?sign=1739318036-Pl5BHjeVazVhqxmDbg9yvsLOPT2fiiVP-0-49efdf00528421d687a58eac0c8d51db)
12.以下方程表示,在由美国各个县构成的总体中,各种税收比例对随后就业增长方面的影响:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image445.png?sign=1739318036-4NtsJsj6FgWguPU36g0u6mUaJeg2bAVA-0-f736be4997182f108fa9ef99e9ef3368)
其中,growth是就业从1980年到1990年的变化百分比,sharep是总税收收益中财产税税收收益的比例,shareI是所得税税收收益的比例,而shareS是销售税税收收益的比例。所有这些变量都以1980年的货币度量。遗漏的比例shareF包括收费和杂项税收。根据定义,这四个比例之和为1。其他因素将包括对教育、基础设施等支出(均以1980年货币度量)。
(i)我们为什么必须从方程中省略一个税收比例变量?
(ii)对给出一个仔细的解释。
答:(i)四种税收的比例之和为1,如果不省略一种税收的比例,方程就会遭遇完全共线性。参数不存在“其他条件不变”的情况,也就是说,只改变一种税收的比例不可能维持所有其他的变量保持不变。
(ii)因为每一种税收分担一个比例(最大为1,此时其他税收所占份额为0),因此增加1单位的财产税收益比例sharep是无意义的。如果sharep增加1%,保持其他因素不变的情况下,growth下降。
13.(i)在前4个高斯—马尔科夫假定之下,考虑简单回归模型
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image447.png?sign=1739318036-7JxDzGMYUyvBj9gnlxNcBVsbr4k8T2dF-0-8118079528a290271d22b4020425a5d5)
对某个函数g(x),比如g(x)=x2或g(x)=log(1+x2)。定义zi=g(xi)定义一个斜率估计量为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image448.png?sign=1739318036-r02mkEaWvDUaWvOtwShZedglJmHFNyvt-0-efa7b74533972f0d308409f2c4011007)
证明是线性无偏的。记住,在你的推导过程中,因为
,所以你可以把xi和zi都看成非随机的。
(ii)增加同方差假定MLR.5,证明
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image450.png?sign=1739318036-whKuPbX2Ag7peWIrgw4PjSOe5R7MkWz1-0-ada3364cc6aa555fc01fac31d508ef57)
(iii)在高斯—马尔科夫假定下,直接证明,其中
是OLS估计量。[提示:附录8中的柯西—施瓦兹不等式意味着
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image452.png?sign=1739318036-UDHEGQs9pxF5SHoYzJqtsVPOBJN7kdIs-0-a3ec9c4209a421c13533a2f4f1dc6964)
注意,我们可以将从样本协方差中去掉。]
证明:(i)记
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image453.png?sign=1739318036-Lat4OIsJF6sRII7ABCFaV6JLXrvGmL2N-0-6f5f3035c40e44901e95943ea00a6602)
这不完全是z和x样本协方差,因为并没有除以n-1。但为了简化计算而使用它。由此可知:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image454.png?sign=1739318036-IHHy6lpSfRFni4TdNBEe2uyN2DNynxT9-0-57a7c4d84981088ec657e9d6fe3acf60)
这是一个yi的线性函数,设权重为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image455.png?sign=1739318036-UUQbcYBJh7qmUrSKJyx2gBaVdYvbbFQU-0-4f0fafccde158da45bc90cbf838abfa7)
为了表示无偏性,将加入该方程可得:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image457.png?sign=1739318036-llyPZZjUES8gnEvVfklYllppbv4qNWR6-0-bce1d773a479d4f015e7440d6f2b1527)
因为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image458.png?sign=1739318036-Ct2rlodhxxKGxvE2POQoC05152GrVoC8-0-2f32c19dfe25d7f9cc30ea19fe1cc46e)
szx是zi、xi和预计期望值的函数。对于所有的i,都有E(ui)=0。因此可得:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image459.png?sign=1739318036-177xK6Pq10WxIIU6YNrD2icMXEC9RnUj-0-62ebca4f96ab60148230c7063e5f07e2)
(ii)据(i)可得:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image460.png?sign=1739318036-qdZ9JZXvW0kU34EnxBWhGYrdoJ8XFXo3-0-4c7dae65590d3db349f673435891bb52)
(iii)已知
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image461.png?sign=1739318036-cmWrCqs4Mh9rj5TxRO5gUAe8yQsNKUGd-0-2540d40e84206774081a5d0a26989d0f)
将从样本协方差中去掉,消去n-1,可以得到:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image462.png?sign=1739318036-gN9T8N3yNcWLbLevWW0Il9HygoyGhnNp-0-0fcc853aa6e0143cf35cdac5f47b9ed1)
即:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image463.png?sign=1739318036-0FzddCVIlxjgPSUjKYRUYMCE3nAdepky-0-daf98b093c46c9cfb11f3ed984b19b83)
两边乘以,可得
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image464.png?sign=1739318036-3x5GKgAUWXhVYut1o1YjipKGesYRLRtG-0-3a8d8d353c13d5d179a88b03ed35cb7a)
二、计算机练习
C1.健康官员(和其他人)所关心的一个问题是,孕妇在怀孕期间抽烟对婴儿健康的影响。对婴儿健康的度量方法之一是婴儿出生时的体重;过低的出生体重会使婴儿有感染各种疾病的危险。由于除了抽烟之外,其他影响婴儿出生体重的因素可能与抽烟相关,所以我们应该考虑这些因素。比如,高收入通常会使母亲得到更好的产前照顾和更好的营养。表达这一点的方程是
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image465.png?sign=1739318036-3sVDVMdklOlm54erMwVVbwwB05OQVdbF-0-62528726bc3408ecf5430ae8fbbc3385)
(i)的符号最可能是什么?
(ii)你是否认为cigs与faminc可能相关?解释为什么可能是正相关或负相关。
(iii)现在利用BWGHT.RAW中的数据分别估计包含和不包含faminc的方程。以方程的形式报告结论,包括样本容量和R2。讨论你的结论,主要看增加faminc是否会显著改变cigs对bwght的估计影响。
答:(i)最可能的符号是。高收入通常会使母亲得到更好的产前照顾和更好的营养,从而使得婴儿出生体重较大。
(ii)一方面,收入的增加会使得商品的消费增加,因此两者是正相关关系。另一方面,家庭收入越高,家庭成员所受的教育越高,吸烟的可能性越低,因此收入与吸烟是呈反相关关系的。实际上,样本中两者呈负相关关系,相关系数为-0.173。
(iii)不包含和包含变量faminc的方程分别为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image466.png?sign=1739318036-zweWKAEaOwaD3yxMCGxogex5L8O8sm6c-0-e0ffa895c7ff097778f732d99f7928f7)
及
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image467.png?sign=1739318036-bQhObLC4yfxxqiI62AdM48k9nJmn49jZ-0-c1fd08f98ef7668d6a5517394fb1df43)
可以看出,加入变量faminc的回归中,吸烟的影响较小,但两者的差别不大。这是因为吸烟和家庭收入之间并不是非常相关,而faminc的系数实际上是非常小的,1988年10000美元的家庭收入增长使得预计出生体重仅增加0.93盎司。
C2.使用HPRICE1.RAW中的数据,估计如下模型:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image468.png?sign=1739318036-w2BLF7P32SYam3RFuicDOmM6RdQucuNS-0-4ff843ec65796d1d7b64646f67363425)
其中,price是以千美元为单位的住房价格。
(i)以方程的形式写出结果。
(ii)住房在保持面积不变的同时又增加一间卧室,估计其价格会提高多少?
(iii)住房增加一间大小为140平方英尺的卧室,估计其价格会提高多少?将这个答案与你在第(ii)部分的答案相比较。
(iv)价格的波动有多大比例能被平方英尺数和卧室数解释?
(v)样本中的第一套住房有sqrft=2438和bdrms=4。从OLS回归线计算这套住房的预计销售价格。
(vi)样本中第一套住房的实际销售价格是300000美元(price=300)。求出这套住房的残差。它是否表明购买者为这套住房支付了过低或过高的价格?
答:(i)估计方程为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image469.png?sign=1739318036-FtVHaPJmfPXgYbz1d38QnG8MGKz1oAUM-0-d4c0df16c0946b657a5d1df48d45508a)
(ii)其价格会提高
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image470.png?sign=1739318036-K529PcwaYwGilC7BDL7Oy1yqloqVPrFu-0-36404781aa87e21e3bbfd6abb24338b5)
即15200美元。
(iii)估计其价格会提高
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image471.png?sign=1739318036-W3TkWeCnZxAr6iwq9hICrYa4cbHuakFb-0-f585e441cd21ba9e39fa1deac878c81b)
即33120美元。
(iv)价格的波动有能被平方英尺数和卧室数解释。
(v)这套住房的预计销售价格为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image473.png?sign=1739318036-49fS0xOulRVcdBQnnfCkpIWJfsgybABs-0-0c7e6daeb30b8b3961a438dbb66ab1c7)
即353544美元。
(vi)实际销售价格为300000美元,预计价格为353544美元,残差为实际观察值与回归估计值的差,即-53544美元。购买者为这套住房支付了过低的价格。当然,还存在一些其他的无法测量的因素影响房屋的价格,模型并未将这些因素完全纳入进来。
C3.文件CEOSAL2.RAW包含了177位首席执行官的数据,并可用来考察企业业绩对CEO薪水的影响。
(i)估计一个将年薪与企业销售量和市场价值相联系的模型。让这个模型对每个自变量的变化都具有常弹性。以方程的形式写出结论。
(ii)在第(i)部分的模型中增加profits。为什么这个变量不能以对数形式进入模型?你会说这些企业业绩变量解释了CEO薪水波动中的大部分吗?
(iii)在第(ii)部分的模型中增加ceoten。保持其他条件不变,延长一年CEO任期,估计的百分比回报是什么?
(iv)求出变量log(mktval)和profits之间的样本相关系数。这些变量高度相关吗?这对OLS估计量有什么影响?
答:(i)常弹性方程为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image474.png?sign=1739318036-FxexC4GjErrfUEcM7oeiDnIbpCKrZ1zL-0-f9acb208fb4aaca7f33d0bc6e952f51c)
(ii)profits不能以对数形式进入模型的原因在于:样本中的9个公司的利润为负,如果采用对数形式,将会在模型中丢失这些数据。估计模型如下:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image475.png?sign=1739318036-dHkz2d6RiAeiynZrqE3OOeCgjc4htTSU-0-8d8b3346980006fd32de8294af2054d8)
profits的系数非常小,在这里,profits是以百万度量的,所以在sales和market保持不变的条件下,如果profits增加十亿,即,预测的薪水也仅增加3.6%。总的来说,这些变量仅解释了CEO薪水变异中的30%。
(iii)加入变量ceoten后的模型为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image477.png?sign=1739318036-DHKRTgLlRUgaoNmM6PF3XRgfMk4RuhWO-0-494fec8a334d17cb2d5e23b102c4366d)
延长一年CEO任期,估计的百分比回报是1.2%。
(iv)变量log(mktval)和profits之间的样本相关系数是0.78,这是高度相关的。这对OLS估计量的无偏性是无影响的,但会使它们的方差增大。
C4.本题使用ATTEND.RAW中的数据。
(i)求出变量atndrte,pricGPA和ACT的最小值、最大值和平均值。
(ii)估计模型
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image478.png?sign=1739318036-XkZm1eJkR7cPIqlvkqcASHcCdTxAz5H1-0-fa457f46ebaa51c07f86d0881413f675)
并以方程的形式写出结论。对截距做出解释。它是否有一个有用的含义。
(iii)讨论估计的斜率系数。有没有什么令人吃惊之处?
(iv)如果pricGPA=3.65和ACT=20,预计atndrte是多少?你对这个结论做何解释?样本中有没有一些学生具有这些解释变量的值?
(v)如果学生A具有pricGPA=3.1和ACT=21,而学生B具有pricGPA=2.1和ACT=26,他们在出勤率上的预期差异是多少?
答:(i)atndrte,pricGPA和ACT的平均值、最小值和最大值如表3-2所示:
表3-2
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image479.png?sign=1739318036-M6ADgdcE0imADH1tnY0gIFDuBCePK1yj-0-59fb76eb2e50d3a5069f2217aafdcf72)
(ii)估计方程为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image480.png?sign=1739318036-e02EdHQu5W4UrBGCLVuiHqPxt6WlLqeR-0-d0184a19ed67256f60febcf18c7d2a24)
截距的含义是,当pricGPA和ACT为0时,预计的atndrte为75.5%。实际上在大学里面没有学生的pricGPA和ACT为0。对总体而言不存在一个有用的含义。
(iii)pricGPA的系数意味着,在ACT保持不变的前提下,学生的pricGPA系数提高1%,atndrte将增加17.3%。ACT的系数为负,最初是令人吃惊的。在pricGPA给定的前提下,ACT提高5%,预计的atndrte将下降8.6%。
(iv)预计
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image481.png?sign=1739318036-iSRyrgDnwxEB04e3oAnnAK4GewbAM1YG-0-76f4dfce2123e21e55c18f2222b0f11f)
学生的出勤率不可能超过100%。当用回归方法对因变量的上界和下界进行预测时可能出现这样的情况,实际上样本中学生的真实出勤率为87.5%。
(v)A和B在出勤率上的预期差异是:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image482.png?sign=1739318036-rSAv3zgBR0SwxXmZhcuG63sJuaoSOyb4-0-c6f42483f2893b31aea95737096cd1a1)
C5.根据例3.2明确地进行“排除其他影响”的练习,证实对OLS估计值做“排除其他影响”的解释。这首先要求将educ对exper和tenure进行回归,并保留残差。然后将log(wage)对
进行回归。将
的系数与在log(wage)对educ、exper和tenure的回归中educ的系数相比较。
答:educ对exper和tenure进行回归的模型为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image483.png?sign=1739318036-VKbME9hJnX3oIo2ieHVHALhS1Ur14Pnv-0-ed5f0d50eec28a87f9b9f996c0ee69dc)
保留残差然后将log(wage)对
进行回归的模型为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image484.png?sign=1739318036-g9HHdyrY8JJNdsFPt1PlqDw33mJKrLJr-0-4358d76659dda91cc7baa80d631a7e6b)
在第二个回归模型中,系数与公式3.19中educ的系数相等。以上回归的判定系数小于3.19的R2。log(wage)对
的回归解释了educ中与exper和tenure无关的部分。exper和tenure的独立效应没有包括在内。
C6.本题使用WAGE2.RAW中的数据。照常保证如下所有回归都含有截距。
(i)将IQ对educ进行简单回归,并得到斜率系数。
(ii)将log(wage)对educ进行简单回归,并得到斜率系数。
(iii)将log(wage)对educ和IQ进行多元回归,并分别得到斜率系数和
。
(iv)验证
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image486.png?sign=1739318036-OOJgzhJFzR7yTXuzfP9tc05ewh2i2Owd-0-77f2ff5f209be6651fa38cc8f2911747)
答:(i)斜率系数。
(ii)斜率系数。
(iii)斜率系数和
。
(iv)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image491.png?sign=1739318036-12NCN4Lx4KGyWIU0yhHgvwwR7CqyvnAC-0-18608aeebc9d5f1ef98535c98a79a47b)
这与是非常接近的。较小的差距可看作为舍入误差。
C7.本题利用BWGHT2.RAW中的数据。
(i)估计模型
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image492.png?sign=1739318036-yBH1WvtYUpwMYe5FCyGrwiN3z9QT7OK7-0-80db7625adbe123948c9099b7b48b449)
并按照通常的方式报告估计方程,包括样本容量和R2。斜率系数的符号与你的预期一致吗?请加以解释。
(ii)如果npvis增加一个样本标准差,对出生重量(bwght)有什么影响?
(iii)现在做log(bwght)对cigs的简单回归,并将斜率系数与第(i)部分中得到的估计值进行比较。估计出来吸烟的效应是否和第(i)部分的有明显差别?
(iv)找出cigs和npvis之间的系数,并用它来解释简单回归和多元回归下估计值的相似性。
(v)向第(i)部分的回归方程中加入变量mage,meduc,fage和feduc。出生体重[更确切地说是log(bwght)]是一个容易解释的变量吗?
答:(i)估计的方程为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image493.png?sign=1739318036-Im0WLqVkWe6GPLLN5zPnD1W6uGSRR8Vr-0-d50c44eac9f46a14e5bcf0a5d269a62e)
cigs的系数为负,而npvis的系数为正。一般而言,预期怀孕期间平均每天吸烟的数量越多,出生婴儿的体重越低,而产前检查的次数越多,出生婴儿的体重越高,因此斜率系数的符号是符合预期的。
(ii)npvis的样本标准差为3.68,如果npvis增加3.68,则bwght预计将会增加0.0056×3.68×100%,即2.06%。
(iii)简单回归估计出的cigs的系数为-0.0034,因此估计出来的吸烟的效应与第(i)部分并没有明显的差别。
(iv)cigs和npvis样本相关系数为-0.0387,此外,将cigs对npvis回归得出的系数为﹣0.0438,可以看出cigs与npvis的相关程度是很低的。根据简单回归和多元回归的斜率系数之间的关系,简单回归和多元回归的估计值很相似是可以解释的。
(v)加入变量之后的回归方程为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image494.png?sign=1739318036-5e9ralfUnunlIfUJmV8DxnP1RupheYQ2-0-1eecc8ac86604af81b31698bf8f512a6)
从回归方程可以看出,加入的变量系数均很小并且符号与预期并不完全一致(如很难解释为什么父母年龄与教育的影响方向为何是相反的),此外模型的R2很低,仅为0.0169,即所有的变量加起来只解释了出生体重1.69%的变化。因此,出生体重并不是一个容易解释的变量。
C8.本题利用DISCRIM.RAW中的数据。对新泽西和宾夕法尼亚的各个邮区,搜集快餐店各种商品价格和人口特征方面的数据。目的是想看一下,快餐店是否在黑人更集中的区域收更高的价格。
(i)求出样本中prpblck和income的平均值及其标准差。prpblck和income的度量单位是什么?
(ii)考虑一个模型,用人口中黑人比例和收入中位数来解释苏打饮料的价格psoda;
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image495.png?sign=1739318036-qBNPGZdqNIEwOHkkQ8TqPaRs9dhaeuVm-0-1f6086e2072ca413bd786ee107d882df)
用OLS估计这个模型并以方程的形式报告结果,包括样本容量和R2。(报告估计值时不要使用科学计数法。)解释prpblck的系数。你认为它在经济上算大吗?
(iii)将第(ii)部分得到的估计值与psoda对prpblck进行简单回归得到的估计值进行比较。控制收入变量后,这种歧视效应是更大还是更小了?
(iv)收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image496.png?sign=1739318036-TwHv7aiHPXqgh2nOJadQgj9Yb9ozHYr0-0-b262335dbf8a97d3a089b15808b9768a)
若prpblck提高0.20(即20个百分点),估计psoda的变化百分比是多少?[提示:答案是2.xx,你在“xx”位置上填写数字即可。]
(v)现在在第(iv)部分的回归中添加变量prppov。有何变化?
(vi)求出log(income)和prppov的相关系数。大致符合你的预期吗?
(vii)评价如下命题:“由于log(income)和prppov如此高度相关,所以它们不该进入同一个回归。”
答:(i)样本中prpblck平均值为0.113,标准差为0.182;income的平均值为47053.78,标准差为13179.29。prpblck的度量单位是比例,而收入的度量单位是美元。
(ii)OLS回归结果是:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image498.png?sign=1739318036-7THMaF3AUGRDTbFbgHZL3FgF9KZ6r8Mm-0-07eba043638fad83a4921b237a97b284)
prpblck增加了10个百分点,soda的预计价格将增加0.0115美元。它在经济上不算大。在无黑人的地区和其他几乎全部是黑人的地区,soda价格的差异大约是11.5美分。
(iii)简单回归估计中,prpblck的系数为0.065,因此简单回归估计的系数更低。这是因为prpblck和income是负相关的,而收入变量在多元回归中的系数为正。控制收入效应后,歧视效应变大了。
(iv)模型结果为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image499.png?sign=1739318036-woKcsrsZVwOGeMsorLI9yprnSw9Wraji-0-46fbc0cadf44d9530cffa4f0248362e5)
若prpblck提高0.20(即20个百分点),估计psoda的变化百分比是
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image500.png?sign=1739318036-GBzogPelnlBjHZfN1YMahQy2cy9iJr3V-0-59451b174a85e24ec30b9fb1421a9acd)
即2.44%。
(v)添加变量prppov,下降为0.073。
(vi)log(income)和prppov的相关系数为-0.84,符合预期,因为贫困率是由收入决定的,收入越高贫困率应该越低。
(vii)log(income)和prppov之间的确是高度相关的,但是为了能够分离出纯粹的歧视效应,在模型中需要包含尽可能多的衡量收入的因素,因此模型中包含这两个变量是有意义的,即他们可以进入同一个回归。