换新完毕，问题意见建议请回复在此

主题：【原创】经济学的经验研究方法 -- Dracula

共: 💬 86 🌺 446

老大河待整

【原创】经济学的经验研究方法
过去30年里，经济学的研究重点明显偏移到经验研究，30年前顶尖杂志大多数文章都是理论模型，但是现在经验研究明显占优势。相对应的经济学内对经验研究方法的争论也变得非常激烈。对于行外人来说，这方面的争论由于不涉及具体的经济政策，因此远不象淡水，咸水之间的争论有吸引力。但是对搞经济学研究的，包括我个人来说，这些争论直接涉及到写文章、发文章的问题，因此更重要，也更有意思的多。我今天挺闲，又不想写有争议性的题目，就写写structural和reduced-form经验研究方法的争论，不过这个题目对大多数人来说可能太枯燥了。
自然科学和社会科学的主要区别就在于在社会科学里很难做真正的randomized experiment，存在endogeneity的问题。照我经济计量学教授的说法，经济学和其他社会科学的区别就是经济学家理解，而其他学科不懂endogeneity的问题。举几个例子，说明一下什么是endogeneity。
比如我们想研究政治制度（比如一个国家是否民主）和经济增长速度关系的问题。最简单的方法就是将经济增长速度和政治制度作回归，看民主国家是否经济增长更快。抛开其他统计问题，比如怎么来量化政治制度，经济增长速度的统计误差等等，这个方法最严重的问题就是endogeneity。如果我们用医学实验作为研究的蓝本，那么最理想的情况就是将世界上接近200个国家随机分为好几组，每组实行不同的政治制度，30年之后统计比较它们经济增长速度的不同。这种理想情况当然不可能出现，但是用来对比就可以发现简单回归分析的问题所在。现实世界中一个国家的政治制度并不是被随机的，而是由一个国家的历史，地理，经济，文化等各种因素决定的。而这些因素很明显也对经济增长速度有很大的影响，因此如果简单的回归分析结果发现民主国家经济增长快，我们并不清楚到底是政治制度本身影响经济增长，还是导致一个国家选择民主制度的这些因素促进经济增长，政治制度本身没有任何影响。用统计学的语言就是是否有我们没有观测到的因素和政治制度及经济增长制度都相关，这样的话用回归方法估计出的结果是biased，不可靠。
劳动经济学里最重要的一个研究课题就是估计教育对一个人一生收入的影响。但是直接将收入和教育程度作回归，会遇到endogeneity的问题。因为一个人的教育程度并不是被随机决定的，一个人的能力，家庭环境有极大的影响。能力高，父母重视教育的人教育程度也高，但是能力，家庭环境明显对一个人的收入有很大的影响。因此直接回归的结果很可能高估教育对收入的作用。
教育经济学里一个领域是研究班级人数对学生成绩的影响。直觉上，班级人数如果小的话，老师对每一个学生会投入更多的精力，学生的成绩会提高。但是一个学校的资源有限，要做收益-成本分析，决定最优的班级人数，需要知道确定的数值。美国的中小学教育是分散制，教育政策包括班级人数由各个校区自己决定。有钱人居住的校区，资源多，老师多，班级人数少，穷人校区相反。因此直接将学生成绩和班级人数作回归得出的结果有很大的bias，也就是说有endogeneity的问题。
如果仔细考虑一下，几乎所有经济学包括其它社会科学研究的问题都面对endogeneity的问题。因此几乎所有社会科学的经验研究都可能不可靠。即使回归分析的p-value小于0.001，我们也不能确定的参数到底是不是0。因此过去几十年，经济学家想出各种方法来解决endogeneity的问题。
一种最明显的方法是将这些其他变量直接加入回归方程，作为控制变量。这样回归分析结果就去除了其他因素的影响。但是这种方法在大多数情况下并不能完全解决问题。比如对于政治制度和经济增长的研究，本来数据就不多。而这些其他影响经济增长的因素到底是什么我们不是很清楚。加控制变量太少，不解决问题，加太多了，statistical power会大幅度降低。比如有的因素可能被政治制度决定，但是不影响经济增长速度。如果我们把它加入回归方程，会出现multilinearity的问题。即使事实上政治制度确实影响经济增长，但结果可能显示统计不显著，。
关于收入和教育关系的研究。如果我们加入很多家庭背景的变量，这样的回归其实就是比较一个家庭里兄弟姐妹收入差别和教育程度差别的关系。如果我们再加上出生时间作为控制变量，结果就是比较双胞胎收入差别和他们教育程度差别的关系。从表面上看，双胞胎DNA是一样的，因此能力是一样的，家庭背景也完全一样，因此用他们的收入差别和教育差别作回归，就避免了endogeneity的问题。可是仔细考虑一下，我们就会提出疑问。既然他们各种情况一样，为什么教育程度不同呢？可能其中一个人小时候得了重病，影响了学业，可能是父母对其中之一特别偏爱，或者其他许多可能。但是这些因素比如身体情况对收入也会有影响。因此连双胞胎研究也无法避免endogeneity的影响，其它研究加控制变量结果的可靠性更成问题。
80年代后期，经济学的经验研究走了两个不同的方向。有的经济学家基本上放弃了经济理论对经验研究的指导。他们的方法是寻找最大程度接近randomized experiment的数据，从而解决endogeneity的问题。这一派被称为reduced form。他们的统计方法一般比较简单，普通人没有什么数学和统计学的训练也可以弄懂。由于经济学家要对实际的政策制定发生影响，必须要说服议员，市长等政客。因此reduced-form在这方面有很大的优势。
Structural派的经济研究则是完全从经济理论出发。比如研究教育同收入的关系，就直接从效用最大化来直接model教育程度的确定。Structural的统计方法一般很复杂，一个估计的程序电脑运行经常就要好几个月。这一派具体的模型细节和估计方法不要说普通人，就是研究其他领域的经济学家要搞懂也要花很多时间，因此对政策制定影响要小。但是structural的方法也有它的优点。我们可以用structural模型估计的参数作预测，对不同的政策选择作分析，reduced-form结果应用的局限性要大一些。
接下来我就介绍一下reduced-form和structural两派的具体方法。由于reduced-form方法比较好懂，我就写得详细一些，structural那一派就简略一些。
元宝推荐：老马丁,海天,晨枫, 通宝推：苏城,redbud,万里风中虎,赫然,frnkl,

本帖一共被 1 帖引用 (帖内工具实现)
- 我对虎大一向
- 复【原创】经济学的经验研究方法
  新年好！催更啊
- 复【原创】经济学的经验研究方法
  字字珠玑，西河之幸。
- 复【原创】经济学的经验研究方法
  楼主介绍的经济学研究方法，其实和股市研究很类似：
  股市研究的重点，就是股票应该的股价是多少。低估买入就会赚，高估卖出也会赚。呵呵
  基本假定是股价和每股的利润成一定比例，这个比例即是国库券利息。
  比如每股盈利1元钱，国库券年利息5%，股价应该是1/5%=20块。
  很久以前的股价应该就是这个样子。
  但是，人们发现，除了基本因素外，还有很多其他因素。
  比如今年盈利1块钱，去年盈利5毛钱，前年盈利25分钱。那么明年的盈利可能就是2块钱，那么明年的股价就应该是2/5%=40块。
  而2块钱的盈利是一种简单的依照过去的历史做的未来分析。为了提高它的精度，可以对盈利进行各种更精细的分解研究：
  微观如管理费用、比如订单预测、比如竞争分析。。。。。
  宏观如通货膨胀率、MX、年利率。。。。。
  这种方法应该是楼主提到的structural方法吧。也是股市专家们的方法。
  另外还有一种办法，就是看股市本身：
  基本假设在于，股市被操作，就一定有痕迹可寻。
  这种股市被操作，在规范的市场，可以理解为前景被看好，被大量建仓，或者前景不好，被大量减仓。在不那么规范的市场，可以理解为主力建仓、洗盘、拉升、出货等等一系列直接操纵股价的不法行为。
  而针对股市操作，其实也可以建立一个模型，从股价的走向、成交量的统计、股价表现的行为模式等等来推测股价所处阶段，预测股价的未来走势、涨跌幅度、或关键点位等等。
  这应该是类似介绍中的统计类方法：reduced-form吧。也是股市炒家、散户的方法。(那些市议员、市长什么的，最多也就是个散户的水平。呵呵）
  以个人看法：
  structural的方法优点在于对事情的成因、有深刻的理解，但是实用起来效果未必很好，尤其是小波动情况。主要是不可能穷举所有因素及确定他们的权重。而大波动时，人的主观因素又有很大影响。或者说看人的疯狂程度就知道事情不妙。
  reduced-form的方法简单、直观，但缺点在于它是一个局部研究。而局部的变动，可能只是整体波动的一个小片段，即使指标完全相同的两个场景，也可能因为一个是上升趋势中、另一个是下跌趋势中，结果迥异。容易造成盲人摸象的争议。
  所以，说回结果，还是老套：以常识为基准、宏观结合微观、道藏万物。
  但是感谢楼主，把玄妙而不可捉摸的道，化为数学、公式、还有西西河的帖子，让我们普通人，也能真实的触碰一下。哈哈哈
- 复【原创】经济学的经验研究方法
  【原创】Natural Experiment
  Natural Experiment这个词用法很多。一些文章将所有的reduced-form的方法都叫做natural experiment。这一篇我就讲一下其他的被称为natural experiment的各类研究。下一篇再说randomized experiment。
  一类被称作natural experiment的研究是比较政策推出前后行为的变化。1966年秋，罗马尼亚总统齐奥塞斯库下令禁止堕胎。Cristian Pop-Elechesy利用这一点比较1967年1月-10月出生的人后来的教育，收入以及犯罪情况。这段时间的前一部分出生的人的母亲怀孕在禁令颁布之前，应该有机会堕胎。后一段时间的人的母亲应该没有机会堕胎。由于只有10个月，其他因素应该变化不大，因此Pop-Elechesy把这些人后来教育收入的变化归因于堕胎政策的变化。这种前期和后期的比较有点像control组和treatment组。也有点类似于regression discontinuity，不过没有regression discontinuity来的有说服力。她的结果发现1967年后期出生的人后来的教育程度和收入要比前期出生的人要高，而犯罪率要低。她的解释是堕胎是当时罗马尼亚的主要避孕手段，而选择堕胎的主要是教育程度高，收入高的女性。1966年秋天的堕胎禁令增加的生育也主要集中在这个阶层的女性。因此这些多出来的孩子要比普通人的教育程度收入高。但是她发现如果将母亲的教育程度和收入加入回归方程，作为控制变量，结果显示1967年后期出生的人结果要差。换句话说，如果母亲的收入，教育程度相同，那么1967年后期出生的人的教育程度，收入情况要低于，犯罪率要高于1967年前期出生的人。她的解释是这是由于教育资源的限制，当然我前面提到的Donahue-Levitt的机制可能也在起作用。
  Cristian Pop-Elechesy的这篇论文我觉得是在这一类研究中比较好的，但是我们考虑一下会发现也有一些问题。我们不能排除可能有其他因素变化导致前后两段时间出生的人的结果不同，因此如果她能加几个同罗马尼亚类似的国家，比如匈牙利，保加利亚作为对比组，也就是使用diff-in-diff的方法，说服力会更高。当然，我前面讲了即使是diff-in-diff我们可能还是会有一些疑问，为什么罗马尼亚选择了不同于其他国家的堕胎政策呢？导致罗马尼亚选择不同政策的因素是不是对教育情况收入情况也有影响呢？这些问题有多大影响要视具体的研究对象而定。
  另一类被称为natural experiment的研究是由政府组织进行的实验。有名的例子是美国的negative income tax实验。当时美国的福利政策是设定一个贫困线，保证家庭的收入不低于这个水平，如果家庭的收入低于这个线，政府发放福利补足这之间的差额。这个制度的缺点在于它其实是鼓励低收入的人不工作。打个比方，假设贫困线是每周300美元。一个人的工资是10美元。假设他不工作的话，政府发放300美元救济，假设他工作30个小时，收入是300美元，救济是0，净收入还是300美元。因此对他来说理性的选择很可能是不工作，只领政府救济。对整个社会来说，这明显是没有效率的，经济学里叫dead-weight loss。
  但是对于贫困人口，社会确实有义务帮助。为了解决这个问题，Milton Friedman提出了negative income tax的方案。比如15000美元以上的收入需要交收入税，但是15000美元以下的收入却可以得到政府相应的补贴（也就是负的所得税）。Friedman的方案是50%的负税率。一个家庭的收入如果是5000美元，它收到的补贴是0.5*(15000-5000)=5000，净收入是10000美元。收入如果是10000美元，补贴就会是2500美元，净收入是12500美元。这样就可以减轻dead-weight loss。政府既可以帮助贫苦人口，又不会形成养懒人的情况。这个方案看起来很有道理，但是真正实行起来效果如何不得而知。美国60年代末到70年代进行了4次实验。一共选择了8000多个家庭使用负所得税的方法，测量他们劳动供给的变化。但是这些实验的问题在于selection bias。也就是说政府没有权力强迫人加入实验。假设每个家庭都是理性的，他们计算加入实验和不加入实验的效用，如果每个家庭的效用函数不同，只有获得特别利益的家庭才会加入负所得税的实验。因此参加实验的家庭同普通的家庭有很大的不同，他们之间的比较并不能告诉我们这个制度推行到整个社会的结果会怎么样。换句话说，这种实验的问题在于它并不是真正randomized的。James Heckman在1979年提出解决这种问题的方法是用经济理论直接model家庭加入和不加入实验的效用和他们的决定。他的方法属于我后面要提到的structural那一派，他也因此获得诺贝尔经济学奖。他的方法的问题和大多数structural派的研究一样，在于对变量的概率分布需要作假设。一般的研究都选择正态分布，但是其实说不出任何道理。因此结果的可靠性很让人怀疑。Heckman在过去20年的研究方向就是希望找到non-parametric的估计方法。而Reduced-form这一派则找同randomized experiment接近的数据或者是做真正的randomized experiment。
  有时一些政策或规定的本来目的并不是为了做实验，但却产生类似于随机实验的结果，基于这些政策规定的研究也被称作natural experiments。美国1970年-1973年越南战争服兵役采用抽签的政策。每个在服役年龄段的男性分配给一个号码，被抽到的就需要服兵役。但是高中生属于免服兵役的范围。1971年以前本科生也可以免服兵役。因此一个人如果不想到越南，他的号码又被抽到的话，他就有格外的动力呆在学校里接受教育。我前面说了，直接作回归研究收入和教育的关系有endogeneity的问题。影响教育选择的因素也影响收入。但是这里教育时间的变化是由兵役号码决定，而兵役号码很明显和收入无关。因此这同randomized experiments非常相似。通过比较被抽中的和未被抽中人的收入我们可以得出教育对收入的影响，并且克服了endogeneity的问题。Angrist和Krueger使用这个方法发现多受一年教育，收入增加6.6%。
  Angrist和Krueger方法的缺点在于它有selection bias。被抽中的人有两个选择，或者在学校多待一年，或者到越南服兵役。选择留在学校里的人可能是更怕死，可能是因为和平主义的哲学，可能是因为对他们来说教育的回报相对较高。因此这里教育程度的增加并不是真正的randomized experiments。他们同整个人群并不完全相同，从他们得出的结果并不一定在整个人群适用。
  最后举一个例子是Joshua Angrist最近的论文。美国教育制度改革争论的焦点问题之一是charter school。这一类学校的资金来源于政府，但是有较大的独立性。直接将学生成绩和学校类型作回归有endogeneity的问题，因为选择进入charter school学校的学生和家长可能和其他学生有很大的不同。在波士顿地区，近些年由于charter school学生成绩好，供不应求，申请数量大于学校的能力，学校使用抽签的方法决定录取名单。对于申请charter school的学生来说，最终是否被录取就是个randomized experiment。比较被录取和申请但没被录取学生后来的成绩就避免了endogeneity的问题。Joshua D. Angrist, Susan M. Dynarski, Thomas J. Kane, Parag A. Pathak, Christopher R. Walters他们使用波士顿KIPP charter school的数据发现在charter school就读同其他的公立学校相比，学生的数学成绩可以增加0.35个标准差，英语成绩可以增加0.12个标准差。因此charter school可以很大的提高学生的成绩。
  元宝推荐：海天,陈经,老马丁, 通宝推：抱朴仙人,万里风中虎,苏城,
  - 复【原创】Natural Experiment
    means-tested benefits会导致退出劳动
    市场。美国有类似于“每周工作20小时以上，才能领取补贴”的政策吗？
    Angrist和Krueger使用这个方法发现多受一年教育，收入增加6.6%。
    这个数字有点高，是years of schooling的coefficient, 还是获取文凭那一年的coefficient？
    charter school学校使用抽签的方法决定录取名单。
    是对所有申请者抽签，还是对一部分边缘申请者抽签？如果是后一种，就不能算是randomized experiment。
  - 复【原创】Natural Experiment
    受教了，能谈一谈
    林毅夫合作社TFP那篇文章吗？
    可以认为是一个Natural Experiment吗？
    - 复受教了，能谈一谈
      对不起，这篇文章我没读过
      能不能给个链接，或者文章全名。
      - 复对不起，这篇文章我没读过
        谢谢,
        Lin, Justin Yifu, 1990. "Collectivization and China's Agricultural Crisis in 1959-1961," Journal of Political Economy, University of Chicago Press, vol. 98(6), pages 1228-52, December.
        复谢谢,
        我觉得应该不算natural experiment
        实验的意思说保持其他因素不变，ceteris paribus，只改变一个因素，观察结果的变化。然后把结果的变化归因与这个特殊因素的变化。好的reduced-form的研究，数据都是可以被分成treatment组和control组，Ceteris paribus的假设至少在直觉上还是很有道理的（当然仔细考虑可能有一些漏洞）。因此象Cristian Pop-Elechesy的论文，只是使用1967年10个月的数据，因为跨越的时间一长，很难让人相信其它因素没有发生影响。林毅夫这篇文章研究的时间跨度有30年，我觉得不符合这个条件。因此这篇文章是提出一项新的理论对一部分事实进行解释，但是谈不上是natural experiment。如果这篇文章只是用57-60年的对比说明这一阶段国家政策的灾难性后果，我觉得可以算是natural experiment，不过这是常识，没有什么新意，只是这个发不到JPE这么好的刊物。
        复我觉得应该不算natural experiment
        有理，
        关键是当时的微观数据没有，否则是一个很好的思路，现在就只能是个博弈模型。谢谢。
- 复【原创】经济学的经验研究方法
  期待新作
- 复【原创】经济学的经验研究方法
  为什么两派的名字为
  reduced-form and structural?
  与instrumental variable的有效性检验有关系吗？
  - 复为什么两派的名字为
    我也不是很清楚
    我猜这个术语是来源于simultaneous equation估计里structural equation和reduced-form equation。不过同现在两派的区别也不是能很对应上。
    - 复我也不是很清楚
      exactly.
      structural est. is built on some theoretical equilibrium established beforehand. The equilibrium may be too complicated to solve.
      Reduced form est. doesn't need theoretical structure, just like all Xs are exogenous in reduced-form equation. If reduced-from est. hits endogenous variable, you don't go back to model the stucture of target variable and endogenous variable, but to use techniques to correct the bias.

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明