主题:投票【原创】辛普森悖论 -- earthcolor
- 投票信息
单选,参与 19 / 9
04/2011/504/200/0
辛普森悖论已经在老马丁的帖子中讲到了【原创】老马丁胡侃统计之二: 生活中的几个概率统计问题了。这里是一个实际的例子,我们每个人都有可能碰到。我很早就想来一个投票,现在终于等到认证通过了,可以消费自己的通宝,看看大家对辛普森悖论的投票。
有一个故事,可能是Judea Pearl 讲的,很能体现辛普森悖论的要点:只说有一个研究小组,研究中学生的智力。他们的发现如下,挺有意思的。
1) 第一步:他们发现抽烟的学生成绩比较好。结论:应该鼓励孩子们抽烟。
肯定有人说这结论不对了:有人抽烟那么多,也没看到他聪明。
2) 第二步:于是,研究人员加入了另一个变量:年龄。研究人员发现,抽烟的学生一般年龄比较大。如果在同一个年龄,不抽烟的学生成绩比较好。结论:不能让孩子抽烟
烟草公司现在不乐意了:中学生可是我们烟民的未来,没有了他们,以后我们的烟卖给谁。
3) 第三步:于是,研究人员又加入了另一个变量:肤色(黑人和白人)。结果发现:同一年龄,同一肤色的中学生,抽烟的学生成绩比较好。结论:应该鼓励孩子们抽烟。
又有人说,这个没有道理呀。
4) 第四步:于是,研究人员又加入了另一个变量:家庭经济情况。结果发现:同一年龄、同一肤色、同一家庭经济情况的中学生,不抽烟的学生成绩比较好。结论:不能让孩子抽烟
这个序列可以一直列下去,根据这些特征,最后有可能就找到一个特定的人:他的成绩好或不好。但是,抽烟到底对智力有什么影响,可能是仁者见仁,智者见智了。
好了,讲了这些,回到我们要投票的内容上:话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。请问:你作为医生,来了一个病人,你会选择哪一种药?
本帖一共被 1 帖 引用 (帖内工具实现)
分别的测试和整体的测试是一次还是两次?
如果是一次肯定不会出现这种情况,如果是两次,
那么分别测试的结果说明B的效果比A好,和第一次的整体测试结果根本不一样,
干脆加大样本量重现做一把得了
既然整体测试A更有效了,总要有一个群体(男或者女)也是A更有效,怎么会出现分别针对男性和女性测试人群,B比较有效呢?是不是因为这个测试是分开做的,所以出现了两种结论?
要想解答这个问题,其实很简单——扩大范围,增加样本数量。
要有足够大的样本量,结论才能站得住脚。
如果样本量少,不同的分析会得出不同的结论,像是在飘移,才会出现需要投票的情况,无论投票结果怎样都不能影响试验结果,投票是没有必要的。
话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。
但是,要找去没有因果关系的证据,可能也不是很容易。
如果你先假设抽烟和成绩没有因果关系,那当然可以说这是一个伪悖论了
话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。
是一次测试。问题与样本的分布有关系,但具体的关系不是很清楚。很多人想解释这个现象
我只是对这个问题感到好奇。再说了,就是投票,结果也不能作为研究依据,因为投票结果只是大家的看法,与具体的事实没有关系。
另外,能不能解释一下“裸机死蹄磕回归”?没有明白怎么回事
不可能。
如果是使用同一个样本,你说的那种矛盾的结论不可能出现。
这个跟老马的最后一个例子的情况完全不同。
logistic回归是一个有力的工具。不过,我还是没有明白logistic回归如何解释这个现象:引入一个新的变量,分析的结果会变得和原来相反。进而的问题是:我们要不要引入一个新的变量?什么时候引入?
在老马的最后一个例子中,开始时考虑全体的入学学生。后来引入了一个新的变量:按各个系来考虑。在引入新的变量后,分析的结果改变了。在这一点上,两个例子是相同的。