主题:【原创】经济学的经验研究方法 -- Dracula
感觉回学校上课了
Steve Levitt另一篇非常有名的家长接孩子的那篇文章也是数据上做假的。别人调查同样的数据,不能复制他的结果,发现Steve Levitt把数据中不符合他理论的数据都删除了。
所以,当一个Bayesian(比如说千里烟波河友)说经济学是一种艺术的时候,是对的和可以理解的。
而当一个象Steve Levitt这样的frequentist说经济学是一种艺术的时候,实际上是表明他数据造假了。
呵呵,魔鬼经济学把他也变成魔鬼了。
假设我们想研究A和B的关系。从统计学上讲,endogeneity的问题是说,存在我们不能直接观测到的C,同时和A,B相关。比如研究教育和收入的关系,能力高的人教育程度和收入都高,因此直接将教育和收入作回归结果会有bias。如果我们能发现另一个变量D可以导致教育程度变化,但是不直接影响收入,那么由D导致的教育程度变化就像是个randomized experiment,我们可以这个教育程度变化来估计教育和收入的关系。这种方法叫做Instrumental Variable Estimation,另外的变量D叫做instrument。
用IV方法最有名的文章我觉得是Joshua Angrist和Alan Krueger 1991年估计收入和教育关系的文章。他们的instrument是一个人的出生时间(他们用的数据是出生的季度)。出生在哪个月份好像明显是随机的,同一个人的能力和家庭背景没有任何关系。因此它满足IV的第一个条件。而出生月份却影响美国学生的受教育时间长短。美国一般的校区都规定如果一个孩子在这一年会满6岁,他就必须在这一年秋天入学。而根据校区不同,如果一个学生满16岁或17岁,他就可以选择离开学校,不再接受教育。假设有两个学生,一个出生在1月1日,一个出生在12月31日。因此入学时,一个人是6岁零8个月,一个是5岁零8个月。两个人都不爱学习,想尽快离开校园逃出牢笼,因此一满16岁就会退学。因此第一个人实际接受教育的时间是9年零4个月,第二个人实际接受教育的时间是10年零4个月。第二个人由于美国的制度被迫多上了一年学。Angrist和Krueger使用美国人口普查的数据发现一个人的教育程度确实同出生季度有关。在第一季度出生的人比在其他季度出生的人平均教育时间稍短。因此出生季度即同能力无关,又可以影响教育,满足这两个条件,是个很好的instrument。他们的结果发现,IV的估计结果和普通的回归估计结果类似,因此普通回归的bias并不大。
这篇文章不仅在劳动经济学,而且在整个应用经济学经验研究的影响都很大。他们的design确实非常巧妙,我今天写这篇文章时想起来都觉得赞叹。在它之前应用IV的文章,大多数只是断定某些变量是好的instrument,满足那两个条件。它们即使有一些统计学的检验,也不是很让人信服。而Angrist和Krueger的文章有一个很好的故事,让人听了以后就觉得很有道理,觉得那两个条件的满足是最自然不过的。这篇文章也成为IV研究的典范,影响极大。但是后来的研究表明,这篇文章其实也存在问题。
一个是weak instrument。也就是说虽然出生季度同入学时间有关,但关系其实并不是很紧密。因此,使用出生季度带进了很多的noise,standard error变得很大,估计的结果并不可靠。而且我们真正考虑一下,这篇文章实际估计的是16,17岁不爱学习的人,强迫他们在学校多待一年对他们收入的影响。这个结果对其他人群,其他教育(比如大学教育,博士教育)的适用性很成问题。第二,最近Kasey Buckles和Daniel Hungerman有一篇文章发现美国在第一季度出生的孩子的母亲更可能是teenager,单身或者高中没有毕业。他们对此的解释是收入高,受教育程度高的女性更可能避免在冬天生育(不过我觉得他们没给出很让人信服的解释为什么这会发生)。因此出生时间其实同家庭背景有关,也就对收入有影响。因此并不是valid instrument。
下面再举几个使用instrumental variable估计的例子。
经济学家一般都相信竞争会提高效率。应用到教育领域,就是如果一个校区有好几个学校竞争的话,校长,老师会更卖力。不然,如果学校质量下降,家长会用脚投票,将孩子转到别的学校。学校老师的生计就会有问题。相反如果学校处于垄断地位,家长没有太多其它的选择,老师就不会太卖力,学生的成绩会低。但是如果我们直接将一个校区内的学校数和学生成绩作回归就会有endogeneity的问题。比如一个校区内好多种族,各个种族可能想有自己单独的学校。而多种族本身对学习成绩可能就有影响。另一种可能,假设校区里的一个学校特别成功,校区可能会让这个学校兼并其他学校来提高其他学校的质量,因此我们可能观测到竞争减少,成绩增加。但是这并不表明竞争本身对成绩有害。Carolyn Hoxby发现美国校区的划定同河流有关,由于美国早期交通不发达,学生渡大河上学有困难。因此河流多的地区,校区就小,相应的学校就少,学生的选择少,竞争就少。而一个地区的河流数量好像同学生的成绩没有什么关系。因此河流数量是个valid instrument。Hoxby的结果发现增加学校的竞争确实能提高学生成绩。(Jesse Rothstein后来认为Hoxby在河流数量的具体定义上是data mining,他们之间的争论,感兴趣的话可以找2007年的AER看一下。)
Edward Miguel, Shanker Satyanath和Ernest Sergenti想研究经济增长是否降低内战发生的概率。他们研究对象是撒哈拉南部的40个国家。由于endogeneity的问题,他们使用降雨量作为instrument。他们的结果是经济萎缩5%,内战爆发的概率会增加50%。
Daron Acemoglu,Simon Johnson和James Robinson研究政治制度对经济增长的影响。我前面已经解释了,普通的方法会有endogeneity的问题。他们用殖民时期欧洲人死亡率作为政治制度的instrument。他们的理由是如果这个地区死亡率低,欧洲人就会大幅度移民,更可能把他们原来的制度搬到新大陆。如果死亡率高,很少欧洲移民,欧洲人建立起来的更会是种掠夺性的制度,不利于长期经济发展。现实明显的例子,温带的殖民地,死亡率低,象美国,加拿大,澳大利亚,新西兰经济发达。加勒比海地区,非洲传染病多,死亡率高经济落后。他们数据分析的结果发现政治制度确实对经济增长影响很大。
使用instrumental variable方法的关键是让读者信服instrument同解释变量相关,又确实同被解释变量无关。当然有一些统计学的检验可以做帮助,但是通过这些检验并不意味着这些instrument确实是valid的。就我举得后几个例子,如果仔细想一下,我们就会觉得这些instrument同被解释变量有关的可能性不大,但是并不能被排除。因此使用instrumental variable论文结果的可靠性同randomized experiment的理想标准相比还是有不小的差距。
本帖一共被 3 帖 引用 (帖内工具实现)
贝叶斯派最受诟病的就是那个神奇的先验概率。不过频率派也是有短板的说。
更大,也可能成为noise
搭车问一下,经济学里面关于双边贸易跟两国关系之间的研究有什么新进展?我看过的最新的文献是变量包含到以 贸易物的技术含量 。
如果我们的结果同我们假设不一致,我们会回过头来反复检查程序,看是否有错误。结果如果和假设一致,检查会粗率的多。因此错误也可能是无心的。不过Levitt被人发现论文出错的时候比较多。当然也可能是因为他的论文有名,复制的人很多。
他那篇用选举周期作为警察数量instrument的论文也被证明是错的。我本来写IV那篇想举这个例子。但是又一想净举错的例子会让大家对经济学有不好的印象,因此就换了别的例子。
Acemoglu那篇文章也有争论,David Albouy认为他们是data mining。我觉得Albouy说的有道理,不过我整体更倾向于Acemoglu的意见,因此文章里没提。
可能是因为在义务教育的前提下,月份大(为了避免误解,这里月份大的意思是指由于出生月份不同在同年入学的孩子中的实际年龄大)的孩子可以通过“管理”月份小的孩子获得“当官”的人力资本。
以后这种人力资本使得月份大的孩子从事仕途成功的可能性增加了。而在中国的文化中,官本位(包括中国共产党的党籍)是收入的决定因素,所以月份大的孩子通过欺负月份小的孩子累计了人力资本和信心,以后的所谓“社会地位”和收入都会提高。
这一点还不能完全确定,不过证据正在积累。
比如说,如果孩子的身高可以掩盖月份小的不利因素,长的高的孩子能不能混进月份大的“革命队伍”,也获得这种人力资本?长大以后, 在中国会不会更可能入党或做官,从而得到更高的收入?
再比如说,如果月份大的孩子在政治上更成熟,他们会不会在班级上结盟,形成类似政治局委员会一样的组织来共同管理月份小的学生,并且和老师,学校和家长会联盟,获取安全和信息上的租金呢?
而那些月份小的, 处于不利态势的孩子们能否结盟?(可能性不大,就象LOW SKILL的工人很难组织工会一样),如果结盟失败, 是由于天天被欺负产生自卑心理输在起跑线上了,或者躲在角落里努力抵抗反而增加了人力资本?
这些问题有趣且重要,希望DRACULA先生和其他中国的经济学家和教育学家和我们共同努力, 来研究这些问题,帮助中国的孩子在生理和心理上健康成长。
Effects of Family History and Place and Season of Birth on the Risk of Schizophrenia
http://www.nejm.org/doi/full/10.1056/NEJM199902253400803
你先估计出变量的关系和分布,然后假设这就是真正的关系,用它生成random sample,得出OLS和IV的估计。做1万次,比较OLS和IV估计的分布,决定哪个表现更好。
的可靠性。
PS,“时间上,grange是2000年提的,而grangecausality是1969年。”
您的意思是是不是指Pearl 2000年提的?
再PS,我跟想跟楼主说的更多的是在一般化的理论体系方面,正如你所说,