主题：【原创】似虎非虎 -- 淮夷

共:💬27 🌺308

老大河待整

分页树展主题 · 全看首页上页下页末页

家园 【原创】似虎非虎
外链图片需谨慎，可能会被源头改
这周从香港去山东，机场航班弄错，许多光阴扔给机场。好在旅途读了一本书，叫作《The Tiger That Isn’t》。这本书出版于2008年，作者是牛津大学的经济学家，安德鲁同志 (Andrew Dilnot)。
此书的名字有点怪，权且翻译作“似虎非虎”好了。
书中所谓“老虎”是一个比喻，说的是原始人类在丛林中生活，看到林间闪过一个五彩斑驳的影子，大脑第一反应就是：有一只老虎，赶紧逃命！
那个影子不是老虎，而是阳光投在树丛中的幻象。一阵风拂过，树枝摇动，叶子飞舞，一瞥之下，恰如猛虎卧荒丘，潜伏爪牙忍受。
进化论的解释是，原始人类的这种错误直觉其实是最合理的。为了提高生存的几率，人脑需要对各种“看起来”危险的模式迅速做反应。假如一个人选择定睛细看，另一个人选择拔腿就跑，也许只差一秒，但后者的生存概率更高一点。
人类离开丛林之后，反而更需要“定睛细看”，而不是原始人的“拔腿就跑”。我们的时代有大量“似虎非虎”的现象，需要多一点质疑。以前聊过《统计狂人》(链接出处)，讨论统计学无所不在的影响，此书的主题恰好相反，它讲的是统计学“灰色”的一面：对数据的盲从和轻信，以及由此产生的弊端。
弊端之一，是人们对数据有一种过度偏好，总是试图在一片迷雾中找到隐藏的模式。
比如当你看到这张图片，你有没有发现一些隐藏的规律？
外链图片需谨慎，可能会被源头改
您瞧出了什么，北斗七星阵，还是九字连环阵？
实际上，唯一的规律是：毫无规律可言。
这个图片的数据，来自计算机模拟的“米粒实验”，实验产生数据遵循随机分布的特性。如果你用手抓一把米粒，向天上抛去，米粒散落地面的分布，基本上，也会呈现这样的特性。
这种随机散布的数据点，有一个常见的现象，叫作“集群性”(clustering)。比如，把上面图片分割25个格子，有的格子只有一个米粒，有的格子有一大堆米粒。
随机“集群性”和现实生活有什么联系呢？
癌症病人的不规则分布，有时候，可以用随机“集群性”给予解释。假如把每一个米粒看作是一位癌症病人，那么，现实中，确实存在着某些地区癌症病人集中，而某些地区癌症病人很少的现象。
米粒实验的关键点在于：集群性的出现，只是随机偶然的结果，而非特殊力量使然。
但是，人们总是忽视事件的偶然性一面，而试图为“看似”异常的事件寻各种各样的原因。譬如，某地少有癌症，必定当地水质优良。某地高发癌症，一准儿也有特别原因造成。
2003年，英国的小村Wishaw，发生一起案件。当地村民把一个通信基站连根拔起，基站的业主是通信公司T Mobile，双方为此大闹冲突，争执不下。
村民毁坏基站的原因是，在基站运行的十年内，基站周围500米的20户村民，已经发生了9起癌症。村民直觉是：这怎么能是偶然呢？难道不是因为基站发射的电磁信号，造成如此密集的癌症案例吗？
人们习惯于为某个病症找到罪魁祸首，而真正的“罪魁祸首”，也许只是偶然性。人体是一个复杂的系统，癌症有无数种可能的源头，就像一个米粒最终掉落何方，也是无数因素的影响：手的力量、抛的角度、空气的流动、米粒间的碰撞，等等。除非刘慈欣科幻小说《镜子》里那种“超弦计算机”，否则很难为一个复杂系统找到它的原因和结果。
换个角度，如果癌症的分布不是随机“集群性”，而是在全国各地的人口之间呈现有规律的平均分布，那才是很奇怪的现象。实际上，人们经常低估“集群性”出现的频率和一个“群”的规模，而习惯于高估一件事的“平均性”。
书中提及了一些简单的实验，可以帮读者认识到，即使在很小范围的样本里，“集群性”的发生也会超过人们的预期。
最简单的实验是找一个硬币连续抛30次，记下每一次正反面的分布。作者记下的随机实验记录是这样：
正反反正反反正正反正正反反反反反反正正正正反正正反反反正正正
这个序列一共有15个正，15个反，恰好符合50：50的随机概率。但是，考察数据分布的集群性，这里最大的集群（黑体部分）有6个连续的反，4个连续的正。这种集群结果和米粒实验一样，纯属偶然。
反之，如果你抛了30次硬币，出现“正反正反正反……”这种有规律的序列，那更像是上帝之手了。
所以，有时候，人们对一个事件（比如癌症分布）的统计数字进行过度解读。而有时候，人们走向另一个极端：对统计数字缺乏深度分析，轻易相信。
譬如2005年，英国的放射病防护机构发布了一个最新医学研究，声称：长期使用手机，脑瘤的风险提高2倍。所以，建议儿童不要使用手机。
这个新闻引起英国各大媒体的报道，人们开始恐慌。“提高2倍”的风险，听起来很大，但是，从什么样的基数算起呢？
安德鲁找到了数据源头，Karolinska研究院的科研人员，玛丽亚。玛丽亚说，脑瘤的基数是0.001%，即，如果没人用手机，每10万人有1人得脑瘤。
“风险提高2倍”的意思，在这个案例里，等于提高到0.002%。就是说，常年使用手机之后，每10万人里面多了1个人得脑瘤。
现在您觉得这个风险算大、还是小呢？反正，玛丽亚本人不会禁止她的孩子继续使用手机。
再譬如，当你读到这样一个新闻时，你的反应是什么？“美国的数据显示，超重人群的寿命普遍长于瘦子的寿命，所以超重对长寿是有帮助的。”
这是一个典型的混淆“统计关联性”和“因果关系”的错误。当一个人病重之时，他往往变得很瘦。并非瘦造成了短命，而是疾病造成了瘦。
关联性和因果律的交织，是常见的统计学应用陷阱之一。
这种陷阱，有的时候并不容易认清。比如，一个统计数据告诉你这样的结果：根据学校成绩的统计，头胎的孩子成绩最好，二胎次之，三胎更次之，出生次序越往后，成绩越差。所以，出生次序决定一个人的智力水平。
出生次序和智力，二者的关联性，确实来自英国学校的真实数据，这一点不需怀疑。如果用因果律解释，似也说得通：因为第一个孩子得到家长的100%的教导，所以智力开发最好。到了老二、老三，家长精力变得分散，顾不上这么多，所以智力开发不够好。
我当然很乐于相信这样一个统计学的“发现”，因为我自己就是头胎。
不过，我也认识很多二胎的，聪明程度远超哥哥姐姐。
问题在哪儿呢？这个陷阱，其实藏的挺深。真正原因是：学校的成绩统计是把所有孩子计算在内，这些孩子有的来自大家庭，有的来自小家庭，混在一起比较成绩。
须知，穷人家通常生许多孩子，而富人家只生很少的孩子。
一个学校里，有富人有穷人。自然，头胎孩子的富人比例高一点，二胎就少了点，到了六胎、七胎，恐怕都是清一色的穷小孩。富人成绩好，主要是家庭资源的差异，而不是因为出生次序影响了一个人的IQ。
出生次序与智力是没有因果关系的，二者有的，只是颇具假象的关联性。
这种数据制造的假象，不仅屡屡来自媒体的报道，也来自看似权威的部门，比如政府。
书中提到一个例子，是英国交通部发布的一则官方声明：“交通部在8个地区试点安装了超速摄像头，试点结果是，超速摄像头降低了35%的恶性交通事故。”
政府讲话不一定都是真的。英国也不例外。
如果搜集某个地区每个月份的交通事故，罗列成一个时间序列的数据，那么这种数据往往有一个重要的特征：起伏周期性，就像是股市涨跌一样。
这意味着，除非有足够长的时间序列，足够大的样本量，否则很难证明，事故降低究竟是安装超速摄像头的功劳，还是因为事故频率本来就处于一个下跌周期？
以常识来思考。某一个高危路段，接连发生车毁人亡事故之后，下个月更可能的情况，往往并非事故数量的攀升，而是下降，这或许由于司机行经该路段格外提高了注意力，也许因为被贴上死亡路段标签而导致交通流量下滑。总之，就算政府无所事事，肇事率也会趋向一个平均值，即，事故高峰之后的自然回落。
这种现象，统计学中被称作“回归效应”。
而政府最可能安装测速摄像头的，是什么地区呢？一般都是所谓的近期事故频发路段。所以，英国交通部的声明，要特别打上一个问号了。
安德鲁教授做了一个有趣的实验，来和英国交通部叫板。他找了20个志愿者，每人分配一个路段，充当虚拟管理员。然后每人轮流扔两次骰子，两次点数之和，用来模拟该路段在某个月份的交通事故次数。
由于连续两次骰子，所以一个路段最少事故的极值是2次，最大极值是12次。这听起来有些像是真实的世界。
实验规则是，当一个路段的事故次数出现高峰时（比如10次，11次，或12次），就给那个志愿者发一个摄像头的照片。志愿者带着照片继续扔骰子，无一例外，此后的事故全都下降了。难道可笑的照片也管用吗？
当然，这没什么可笑的，扔骰子是独立随机事件，扔了很多次之后，高点数（高事故）的出现，趋向于一个稳定的相对频率。
外链图片需谨慎，可能会被源头改
（安德鲁的骰子实验和交通事故次数）
安德鲁教授的实验不止于纸面游戏，他仍不肯放过交通部的数据。对交通部声称的政绩---“安装摄像头降低35%恶性交通事故”，他做了一些实证的分析，结论是：在安装了测速摄像头的地区所减少的事故中，有60%应归功于该路段的回归效应，有18%应归功于趋势效应（即各地普遍性的事故下降趋势，不管有无摄像头）。
他说，抛掉具体路段的回归效应和所有路段的趋势效应，事故下降只有20%的成分或许来自政府的政绩，而这20%也还是存疑的状态。
我认为书中这种“似虎非虎”的存疑精神是值得赞赏的，尤其是，当你看到很多漂亮的统计结果之时。
中国的媒体、政府、企业，越来越多的用数字讲话了，这本身是一个很好的趋势。而另一方面，每个人也该多一点甄别力。
所谓，乱花渐欲迷人眼，看清一件事，有时候挺难的。
关键词(Tags): #统计(冬天的绿茶)， 通宝推：等明天,tt086071,隔路山贼,foureyes,dfindy,庄汀,方恨少,铁手,渡泸,逐水而行,钓者任公子,bluesknight,路边,bayerno,
- 复【原创】似虎非虎
  家园 我一直想知道如果把每年死亡的人的死亡原因统计出来会是怎样
  比如车祸、癌症、自杀、脑淤血、心肌梗、暴力、糖尿病等等等等
  说实话我一直怀疑加起来的话会大于每年的实际死亡人数。
  比如因吸烟而死就是个特别不靠谱的结论。
  - 复我一直想知道如果把每年死亡的人的死亡原因统计出来会是怎样
    家园 前一点不可能大于
    因为大量的死亡没有搞清楚原因
    后一个问题和前一个并不是一回事情。
    前一个是描述一段时间的现状，后一个是给定时间、空间、人间后的因果推断。
    由于事件可能是多病因导致，所以归因分数不能简单相加。
    基本理论参见Keneth Rothman的sufficient causal model，这是目前医学统计广泛采用的基本模型。哲学层面上说这个模型必然有大量问题，但是迄今也没有比之更好一点的。
  - 复我一直想知道如果把每年死亡的人的死亡原因统计出来会是怎样
    家园 医疗统计数据之错
    此书颇有详述，若有兴趣深究可找来一阅。
    - 复医疗统计数据之错
      家园 这个事情和统计无关，只不过是采集自己需要的条件而已。
- 复【原创】似虎非虎
  家园 呵呵,提出异议
  没有读过这本书，只是从一个经常做数据分析处理的人的角度看问题。比如说，你举的第一个例子，就是那个散点图，对于很多理工科的人来说，规律那是大大的有啊。举个最简单的例子，这个图可以看成是一个5 x 5矩阵，矩阵中的数值为每个网格中存在的点数，如下图所示：
  8 5 4 6 9
  6 5 2 3 6
  4 7 5 4 3
  1 8 5 1 6
  1 3 3 1 3
  计算一下这个网格的均值，为4.36，也就是说单个网格中平均有4.36个点。
  既然是矩阵，那么对其做个奇异值分析看看，其奇异值为“23.28519 6.78553 3.35594 1.82084 0.42258”。嗯，这个矩阵不错，不是奇异矩阵，可以用来解矩阵方程，俺们喜欢！
  咱们再直观的来看，如果我们对这个5 X 5 的数字矩阵进行平滑平均，即分别用1x1（实际就是矩阵本身）, 2x2, 3x3, 4x4, 5x5（即计算单个网格中的平均点数）的移动窗走一遍，如下图所示：
  外链图片需谨慎，可能会被源头改
  这张图上，俺使用相同的色标，即深蓝色为1，深棕色为9，当用1x1网格，也就是单看矩阵本身时，怎一“乱”字了得；2X2平滑以后呢，可以看出蓝色区域主要集中在底部，尤其是右下端，这就告诉俺们如果你想去点少点的地方，去右下角找就行了；再用大点的窗口平滑，3x3和4x4都告诉我们类似的信息。举个例子，好比咱们去看山，离远点看，这是一座山（5x5网格得出均值为4.36）；近点，山是连绵起伏的，有山峰，还有山谷；再近，再近，最跟前了，钻到树林里，迷路了，乱花渐欲迷人眼，你怎知身在此山中呢？
  再换一个思路，比如说可以用上分形(Fractal)分析的概念，计算一下豪斯多夫维数(Hausdorff Dimesion)，结果大约为1，这说明了从整体上来说，这些个散点的分布接近白噪声分布。
  再换个思路，用varigram分析，那内容就更多了。
  呵呵，最后再举一例，还可以用频率域分析，比如小波分析。
  其实，一个图形只要能转化成数字，那么就能得出很多规律。所以，俺觉得这个例子举得并不恰当，不过作者可能是从科普的角度谈这个问题吧。
  通宝推：淮夷,
  - 复呵呵,提出异议
    家园 举一反三地学习你的方法，再联想一番，真是受益匪浅，花谢。
    举一反三地学习你的方法，再联想一番，真是受益匪浅，花谢。
  - 复呵呵,提出异议
    家园 呵呵先生是有心人
    一个一个格子的数过去，这份认真是我非常特别欣赏的。
    很喜欢您的技术分析，受教了。若拿书中的例子而论，技术分析也许不太符合作者举例米粒实验的本意。
    楼下庄汀先生回答甚好：每一次散点图都可找到“远山近景各自不同”的规律，但是每次米粒实验的共性在于随机集群，这也是作者用之解释癌症病例分布的原因。
    - 复呵呵先生是有心人
      家园 继续异议
      这位经济学家有一定的统计学基础，可是有点托大了。
      虽然在数学上目前流行病学、生物统计学使用的方法与计量经济没什么太大的区别，但是在实际应用上显然没有这么简单，否则就没有必要有着两个学科了。
      简言之，癌症的聚集效应是三间的，即时间、空间、人间。与之相关的分析中需要考虑的因素相当复杂，不是简单地说表象类似于米粒实验的随机群集就可以直接推论的，这在逻辑上就错了。
      - 复继续异议
        家园 继续异议原作者
        从文中的例子可以看出，原作者有一定的因果推断理念，但是对目前医学科学中使用的统计概念的解释没有很清楚的了解，有些例子属于自己树个靶子自己打。
        以胖瘦的那个例子为例。如果说很多年前的cross-sectional study存在作者所述的问题的话，那么现今的医学界还没有蠢到不懂reverse causality存在的地步。这里的问题不是因果性与相关性混淆的问题，而是时序性的问题。
        而另一方面现在的相关研究都要在研究设计，而非统计分析中扣除了充分的induction period之后再探索相关性。并且这个相关性据我所知并没有被解释成为因果性，是作者把它升级到了因果的层面。相关性研究的意义在于在没有足够知识进行因果模型推断时不断积累间接的信息和线索。
        Kaloliska那个报告的例子，是记者的误读而已，和研究没什么关系。因果联系本身就不能被解释成疾病负担，率差和率比本身就有不同的解释，作为必修课，在医学领域发表论文时并不会特别解释。
        虽然最后总结的结论我是认同的，但是具体问题还是要具体分析。有关医学的这两个例子举得并不合适。
  - 复呵呵,提出异议
    家园 这个图有规律，但是这种规律不是每一次米粒实验图的共同规律
    - 复这个图有规律，但是这种规律不是每一次米粒实验图的共同规律
      家园 谢谢，也是我要说的意思
  - 复呵呵,提出异议
    家园 虽然不太懂，但是觉得是在“找”结论
    通过对条件的取舍来得出合适的结论。
  - 复呵呵,提出异议
    家园 抬一下杠
    噪音信号也是信号。如果是二围图象你总能看出各种形状不同的物体来的。但是他们之间没有啥有意义的关联。
- 复【原创】似虎非虎
  家园 呵呵，概率和统计
  统计分布背后都隐藏着概率，重要的统计量除了常见的平均值之外还有方差，方差越小实例偏离平均值的可能性越小，不给方差的统计分析很无力。兄台引的例子基本都是不考虑方差的统计分析，呵呵。另外，相对少的观测次数会表现出更大的偶然性，拿丢针实验来说，100*100的格子丢100个针，各个格子上的针的相对数量会差别很大，差几倍很平常，但是丢1亿或者10亿根，相对数量的差别通常会非常小。
  老虎对于原始人类，是强大而不可控的因素；杯弓蛇影草木皆兵的反应被兄台所认可。同样的，电磁辐射对现代人来说也是强大神秘和不可控的因素，但是‘20户村民，已经发生了9起癌症’之后，拆除基站却被兄台认为是过度反应。呵呵。
  弊端之一，是人们对数据有一种过度偏好，总是试图在一片迷雾中找到隐藏的模式。
  这种偏好是因为我们面对的是未知的世界，从其中找出规律是理所当然的反应。丢针那个例子，背后也不是没有模式没有规律--它正是平均分布的一个实现。当年人们在永动机上花费了无数聪明才智无数人力物力，然后才有热力学第二定律的举世公认。是不是过分迷恋数据，很难给一个黑白分明的判断。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明