近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：算算高铁的账 -- szbd

共:💬816 🌺1744 🌵2

经济管理

你的问题很好

抽样调查的误差来自两大块，非抽样误差和抽样误差。

抽样误差，用科学的抽样方法可以搞定。一般来讲，全国性的调查，抽样方法大多是多阶段分层抽样法，这样总体样本是随机的，各个子体样本也是随机的。比如，全国的样本是随机样本，北京的样本对北京来讲也是随机的。那么我们可以对全国的参数和北京的参数都进行估计。我想这个居民消费调查的抽样方法就是多阶段分层抽样法吧。

影响非抽样误差的一个因素是样本量。样本量由margin of error决定。比如，美国gallop每天进行的总统工作满意度调查的样本量是1000，margin of error是3%。假如现在obama的满意度是46%，那么我们有95%的信心说他的满意度在43%和49%。也就是说，假设我们随机调查1000个美国人，重复这种1000人的随机调查1000遍，950次的满意度结果会在43%和49%之间。在决定样本量的时候，一般先决定最大可容忍的margin of error，美国的全国性的政治调查，一般就是3%之类的，然后计算样本量，算下来也就是1000人左右。预测总统选举的每日调查，margin of error会小点，因为想更准确点，但每天的样本量也不超过3000。要知道美国总体有3亿多人。因此，我们也可以看出抽样调查的魅力了。这个居民消费调查的样本量是4万，您还觉得小吗？

非抽样误差，不能通过增加样本量减少。非抽样误差，主要来自于数据收集的过程中。比如问卷的题目的词语有引导性，比如题目不容易读懂，比如抽样实施的过程中不是随机的，有的人选中了，拒绝参与，比如你说的是否老实回答。是否老实回答的专业术语是response bias，这主要出现在题目和问题很敏感，涉及隐私或者犯法方面时。关于这个居民消费调查，会有涉及收入的问题，有的受访者也许会出于一些考虑，比如关于灰色收入的，会倾向于低报自己的收入，这个是难免的。关于支出，有的受访者会遗漏一些比较细小的支出。不过居民消费调查推算的结果，也要和消费零售的结果对比的，然后进行校正。具体国内统计局怎么控制这块的，我也不是很清楚。

最后，关于正态分布的模拟，结果如下，其中rnorm是R里面产生正态随机数的函数，括号里面第一个数是样本量，第二个数是正态分布的总体（真实）均值，第三个数是总体标准差。您觉得40000够吗？嗬嗬。

> mean(rnorm(10,0,1))

[1] -0.4604775

> sd(rnorm(10,0,1))

[1] 0.851649

> mean(rnorm(100,0,1))

[1] -0.02242468

> sd(rnorm(100,0,1))

[1] 0.9989014

> mean(rnorm(1000,0,1))

[1] -0.02508576

> sd(rnorm(1000,0,1))

[1] 1.007629

> mean(rnorm(10000,0,1))

[1] 1.872289e-05

> sd(rnorm(10000,0,1))

[1] 0.9901812

> mean(rnorm(40000,0,1))

[1] 0.001899528

> sd(rnorm(40000,0,1))

[1] 1.004849

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂倒，循环论证阿 szbd 字52 2010-02-15 10:46:25
    🙂【文摘】统计数字从小小账本开始 2 gogreen 字3934 2010-02-15 19:40:56
    🙂就这么抽样统计 szbd 字174 2010-02-16 04:35:54
    🙂你的问题很好
    🙂这例子不对劲阿 szbd 字162 2010-02-16 08:28:59
    🙂你说的是高斯分布 gogreen 字216 2010-02-16 09:28:53
    🙂不是这么简单的 gogreen 字172 2010-02-15 17:05:00
  - 🙂好像少算了投资来源吧？很多建设费用是铁路自己 gundamzaku 字12 2010-02-11 18:31:05

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明