主题:投票【原创】辛普森悖论 -- earthcolor
- 投票信息
单选,参与 19 / 9
04/2011/504/200/0
不对啊,老酒。
你说的例子不对啊。男女各100个样本,在做药品试验是不可能每个人均服用A和B的。既条件A和条件B是互斥关系。只能是A或B的关系,这里就有一个试验A或者B的比例问题。当然,我们在实验中,为了防止不同变量带入的影响,会保持各个变量在不同条件下等权。所以不会出现我所说的例子。
例如100个男的使用A和B的各50人,同时也要求100个女的,使用A和B的各50人。这样,不会出现辛普森悖论。
但即使在这种情况下,在同一样本群中,我们继续引入其他变量一定会打破平衡的,例如除了性别,我如果再加入年龄,过往病史,甚至星座,对袁崇焕是否是英雄的看法,喜欢奔驰还是宝马等、、、
在大样本试验中,或是在实际统计中,是很难做到所有变量在不同条件下等权的,那就会出现辛普森悖论。
例如,在楼主的文中,统计抽烟和学习成绩的关系,我们无法真正做到所有变量等权。不可能在抽烟/不抽烟对照组中男女、年龄、种族等等都相同。
其实涉及的问题就是变量和条件的相关性。
我再举个例子:
在抽样试验中,抽取男女各1000个样本,比较伟哥和壮哥对延长性高潮的效用。
其中有400个男的使用伟哥,总有效率是91%;600个男的使用壮哥,总有效率是90%; 600个女的使用伟哥,总有效率是10%;400个女男的使用壮哥,总有效率是9%。
于是伟哥公司说我们的产品无论对男女,效果都比壮哥好。
壮哥公司说,不对啊,总有效率伟哥才(400*91 + 600*10)/1000 = 42.4%;而我们壮哥的总有效率是(600*90 + 400*9)/1000 = 58.6%。明显好过伟哥。
当然明眼人知道他们都是在忽悠人。1个百分点的差别在1000个样本中实在说不上显著的差别。唯一说明问题的就是无论伟哥还是壮哥对男的效果好与女的。
本帖一共被 2 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
🙂这下明白啦 煮酒正熟 字248 2008-01-31 20:19:59
🙂没有经验,胡乱说几句 2 earthcolor 字1503 2008-01-31 21:45:31
🙂我的理解,一是建模,二是利用已有统计结果作判断 铁手 字124 2008-02-05 01:20:52
🙂不对啊,老酒。
🙂这些明白了。花谢兄弟敲字解释 煮酒正熟 字173 2008-01-31 20:04:24
🙂送花!你的例子很不错! earthcolor 字22 2008-01-31 19:29:13
🙂好像不可能吧。至少对同一组实验数据不可能。 送花 字135 2008-01-31 15:18:25
🙂老马丁给出了一个例子 earthcolor 字30 2008-01-31 15:24:51