换新完毕，问题意见建议请回复在此

主题：【原创】直觉看，这不对啊。 -- spin

共: 💬 13 🌺 51

老视野待整

【原创】直觉看，这不对啊。

最近在观网上闲逛，看到一篇汪涛关于计划生育数据的小文，观点暂且不论，这个数据处理方式的解释违反常识，本人也不是测量学的专家，所以发在河里，大家讨论活跃一下气氛。

我转载他写的一段我们分析一下。

“4.来自测量学的说明

我们来以最严格的测量学知识说明这个问题。最准确的总和生育率测量会是一个以数学期望为中心的高斯分布。这样，有50%的机率实际的数据小于这个数学期望值，也有50%的机率大于这个值。

如果我们是要设定一个安全的余量，肯定不能设在中心的数学期望值上，因为那样的话就有50%的机率超越这个限度，这还得了？

假设我们要设定一个安全限度，使得实际值有很大概率小于这个限度，应该怎么办？这就需要采用上规范限策略。例如，以高于数学期望6个西格玛（6倍的均方差）设定这个偏差，就可以使实际值超过限度的概率小于百万分之3.4。这就是说，如果总和生育率的数学期望是1.4（很可能来自人口普查，但并非绝对），均方差值为0.05，那安全限度就会在1.7左右。这样就会存在0.3的固定偏高的差值。伪人口学家们注意到了这个偏差，其实所有人都知道，只是一般人不知道这个偏差的真实含义到底是什么。

问题只在于：我们究竟需要设定上规范限还是下规范限，设定多少，3个西格玛还是6个西格玛？这不取决于人口数据的测量方法本身，而是取决于人口总量与资源量的关系。相对来说，最接近实际的是人口普查的数据。但这个数据已经有了，如果要以它们为依据进行预测的话，只需要在电脑中输入需要查询或预测的条件，然后按回车键或用鼠标点击一下——OK，所有数据全有了。这根本不需要人口学家再做什么，也根本不需要那些伪人口学家做什么。人口学家的职责甚至使命，就是要考虑如果存在各种人口普查时未考虑到的因素影响，或存在偶然变化因素刺激的话，“最坏情况下”总和生育率数据最大会达到多少。因为过去中国根据预测的人口总量与资源量之间的关系为依据，确定了以控制人口总量不能超限为目标，采用的就是上规范限的策略。因此，这不是中国人口学界想偏高，而是中国决策者赋予他们的工作使命，是他们的职责要求他们必须要在这个历史阶段这么做。”

我看作者也认为计划生育率是一个大量样本的平均值，那么它的方差就应该随样本数量的开方而减小，以10亿人的样本为例，方差西格玛在10的负4次方量级，那么所谓的6个西格玛也基本等于零，不会对平均生育率的数值有任何影响。这种例子非常多，平均工资，平均汽车保有量，这些数据只要样本足够大，根本就不需要考虑所谓的方差。如果宣称“均方差值为0.05”，那只是说明得出数据所依据的样本数量在400个左岩。还有6西格玛，对应的几率应该是1-erf（6），基本上这个值就是零，而不是他宣称的百万分之3。4，我不知道测量学上需要取这么大的安全限度么。

相关回复上下关系8
- 🙂【原创】直觉看，这不对啊。
  - 🙂计划生育为什么要搞这么狠 3 贼不走空字860 2019-12-21 21:04:40
    🙂计生教父宋健被西方忽悠瘸了，宋健又忽悠某人，举国恐慌！ 10 东晓山字3464 2019-12-22 09:37:21
  - 🙂问题是这论文怎么能通过审稿 1 ytao3 字36 2019-12-21 09:33:07
    🙂这个估计也不是啥正规论文 3 spin 字324 2019-12-21 20:47:02
    🙂6西格玛是质量数据统计中常用到的 1 删ID走人字280 2019-12-22 00:33:17
    🙂这家伙投靠了少生派呗 2 达雅字81 2019-12-21 09:52:49
  - 🙂搞统计的名声就是被社会学这帮人给毁了的 7 pseudo 字564 2019-12-21 02:21:16

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明