淘客熙熙

主题投票【原创】辛普森悖论 -- earthcolor

共:💬52 🌺28
  • 投票信息

    单选,参与 19 / 9

    0
    4/2
    0
    11/5
    0
    4/2
    0
    0/0
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 【原创】辛普森悖论

辛普森悖论已经在老马丁的帖子中讲到了【原创】老马丁胡侃统计之二: 生活中的几个概率统计问题了。这里是一个实际的例子,我们每个人都有可能碰到。我很早就想来一个投票,现在终于等到认证通过了,可以消费自己的通宝,看看大家对辛普森悖论的投票。

有一个故事,可能是Judea Pearl 讲的,很能体现辛普森悖论的要点:只说有一个研究小组,研究中学生的智力。他们的发现如下,挺有意思的。

1) 第一步:他们发现抽烟的学生成绩比较好。结论:应该鼓励孩子们抽烟。

肯定有人说这结论不对了:有人抽烟那么多,也没看到他聪明。

2) 第二步:于是,研究人员加入了另一个变量:年龄。研究人员发现,抽烟的学生一般年龄比较大。如果在同一个年龄,不抽烟的学生成绩比较好。结论:不能让孩子抽烟

烟草公司现在不乐意了:中学生可是我们烟民的未来,没有了他们,以后我们的烟卖给谁。

3) 第三步:于是,研究人员又加入了另一个变量:肤色(黑人和白人)。结果发现:同一年龄,同一肤色的中学生,抽烟的学生成绩比较好。结论:应该鼓励孩子们抽烟。

又有人说,这个没有道理呀。

4) 第四步:于是,研究人员又加入了另一个变量:家庭经济情况。结果发现:同一年龄、同一肤色、同一家庭经济情况的中学生,不抽烟的学生成绩比较好。结论:不能让孩子抽烟

这个序列可以一直列下去,根据这些特征,最后有可能就找到一个特定的人:他的成绩好或不好。但是,抽烟到底对智力有什么影响,可能是仁者见仁,智者见智了。

好了,讲了这些,回到我们要投票的内容上:话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。请问:你作为医生,来了一个病人,你会选择哪一种药?

关键词(Tags): #概率#悖论#辛普森悖论

本帖一共被 1 帖 引用 (帖内工具实现)
家园 咋会这样么?想不通

话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,分别针对男性和女性测试人群,B比较有效。

分别的测试和整体的测试是一次还是两次?

如果是一次肯定不会出现这种情况,如果是两次,

那么分别测试的结果说明B的效果比A好,和第一次的整体测试结果根本不一样,

干脆加大样本量重现做一把得了

家园 是个伪悖论 抽烟和成绩没有因果关系 当然什么可能都有
家园 奇怪阿

既然整体测试A更有效了,总要有一个群体(男或者女)也是A更有效,怎么会出现分别针对男性和女性测试人群,B比较有效呢?是不是因为这个测试是分开做的,所以出现了两种结论?

要想解答这个问题,其实很简单——扩大范围,增加样本数量。

家园 这不是投票问题,而是需要做一个裸机死蹄磕回归

要有足够大的样本量,结论才能站得住脚。

如果样本量少,不同的分析会得出不同的结论,像是在飘移,才会出现需要投票的情况,无论投票结果怎样都不能影响试验结果,投票是没有必要的。

家园 原来表述不是是很清楚,改一下

话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。

家园 当然,抽烟和成绩可能没有因果关系

但是,要找去没有因果关系的证据,可能也不是很容易。

如果你先假设抽烟和成绩没有因果关系,那当然可以说这是一个伪悖论了

家园 原来的表述不是很清楚,改了一下

话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。

是一次测试。问题与样本的分布有关系,但具体的关系不是很清楚。很多人想解释这个现象

家园 这不是我的研究问题,投票只是想了解大家对这个问题的看法

我只是对这个问题感到好奇。再说了,就是投票,结果也不能作为研究依据,因为投票结果只是大家的看法,与具体的事实没有关系。

另外,能不能解释一下“裸机死蹄磕回归”?没有明白怎么回事

家园 裸机死蹄磕回归,参见这些介绍

外链出处

外链出处

外链出处

家园 不可能。

不可能。

如果是使用同一个样本,你说的那种矛盾的结论不可能出现。

这个跟老马的最后一个例子的情况完全不同。

家园 除非有除了男人女人以外第三种人,你解释不通你的样本
家园 花谢!

logistic回归是一个有力的工具。不过,我还是没有明白logistic回归如何解释这个现象:引入一个新的变量,分析的结果会变得和原来相反。进而的问题是:我们要不要引入一个新的变量?什么时候引入?

家园 我来解释一下

在老马的最后一个例子中,开始时考虑全体的入学学生。后来引入了一个新的变量:按各个系来考虑。在引入新的变量后,分析的结果改变了。在这一点上,两个例子是相同的。

家园 确实解释不通呀,才拿出来讨论。对于这个问题,我没有答案
全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河