主题:投票【原创】辛普森悖论 -- earthcolor
- 投票信息
单选,参与 19 / 9
04/2011/504/200/0
你举的例子就是A和B在不同样本中分别进行的实验啊。要不什么叫“符合A”“符合B”呢?
好,假设你面对的是个男病人,选了B,如果我再继续告诉你,在参加测试的男病人里,如果分各个年龄段分别统计,A的效果均好于B,那么根据你的逻辑:
哈哈,你是不是现在改变注意选择A呢?
继续继续,我们知道这个男病人有过往病史,我们再在这个男病人的年龄段中选择有过往病史的进行统计,发现B的效果又比较好,那么你的选择是否又变回B?
.......
你被辛普森悖论给忽悠了.啥时候聊聊变量选择在统计中的作用吧.
没有什么悖论不悖论。因为你完全没有给出统计的偏差。只给一个平均值意义不大。
假设把分类进行到底,一个人一类,酒香你说得那样,那标准差和样本差不多一样大,根本这种统计就没有意义。对于抽烟的研究也一样,每多进行一步分类,95%可信度的区间也就越大,研究结果也就越不可信。究竟到哪一步就完全不可信,并没有一个硬性的划分,但是每一步都更加不可信几乎是一定的(除非成绩大跃进地提高,那么根据我高考前的经验,抽烟确实比较好。。。。)
对于药效,不光有置信度,还要考虑副作用,问题就更复杂了。所以你的问题的标准答案应该是:信息严重不足,吃哪种就看谁给开回扣了。比如最近闹得很凶的降血脂药,一月底的时候公开了一个为期五年的临床试验结果,发现Vytorin,也就是simvastatin和Zetia的合剂,降血脂(LDL)的效果比单吃simvastatin要好很多。但是降血脂的同时,心脏病发病率不但没有下降,死亡率反倒有所上升。而药品公司推动降血脂药的唯一目标就是预防心脏病死亡。这个结果被药厂藏了一年,但在压力之下还是不得不公布。股价跟心脏病发病率是负相关,那就不要提了。其实其他所有的降血脂药,包括Liptor都有这个死穴——LDL是降了,但是死亡率完全没有变化(只对已经得过心肌梗塞半死不活的病人有疗效)。究其原因,药品不光要考虑临床试验的疗效(降脂),临床试验的标准差,也要考虑这个疗效的绝对值(number needed to treat),最后要归结到实际对死亡率的降低/生活品质的提高。
我来考虑一下这里要不要挖个坑。。。
那个叫做悖论的东西,没有给样本大小,也没有给疗效的绝对值,是辛普森扯淡不是悖论。
那么一个问题:到底是要按照年龄来确定结果呢还是要按照性别来确定结果?
您只给了按照性别的结果,那么当然只能按照性别来进行选择。
如果只给了年龄结果,那么当然只能按照年龄的结果来选择。
如果既给了年龄有给了性别,那么就要根据年龄-性别的结果来选择。
增加选项是个分析过程。而当结束分析过程以后,而选择是基于分析过程的结果之上的。
你可以加入任意个选项。但是当你确定了你的选项以后, 结果不是唯一的么?
正像你所说的,如果变量已经确定了,那么结果可能是唯一。
问题是:在分析的过程中,要不要加入新的变量?
因为加入新的变量后,结论可能完全相反。而加不加一个变量,都很难有特别充分的理由。所以,在这样的数据分析中,变量选择是一个非常重要的问题。
就我所知,到目前为止,辛普森悖论还没有被普遍接受的解释。所以很适合讨论。
对于统计偏差在辛普森悖论中的影响,我真不清楚。
看看东方射日:不对啊,老酒。中的例子,好像数据扩大10倍或100倍,都不影响这样的情况:当加入一个新的变量,分析结果可能完全相反。
你的帖子中关于降血脂药的例子,只是说明血脂和心脏病发病率之间没有一个简单的线性关系,而且其他因素会影响心脏病发病率。药品公司肯定知道他们商品的缺陷,却用一个中间变量(血脂含量)来代替最终变量进行统计分析,用数据故意误导消费者。这个例子没有选择正确的因变量。
在辛普森悖论中,问题是自变量的变化,会影响分析结果。
和统计方法无关。
对统计结果来说,加之前和加之后都是合理的,无论他们有多大的偏差,并且结果不可比较。
你说“加不加变量,是系统模型问题”,是另外一种观点。将变量选取和统计分析看作两部分分离的工作。
而我认为变量选取和统计分析是统一在一起的,不可分割的。当然,变量已经事先确定好了,就不需要在进行变量选取这一步了。
我们只是观点不一样。
统计模型提供了判断的基础,“判断”本身也涉及到规则确定。统计模型会需要调整,“判断”规则也可能会需要调整。最终则取决于效果。
我也认为应该称为辛普森谬误。楼下举的几个例子,如果从采样空间的先验概率分布看,是很容易理解的。
所以做统计时不应该只看均值,还需要考虑样本分布的情况。比如男女生入学比例的那个问题,各个学院的录取率相差很多,样本分布是multi-model,均值代表不了什么,一算p-value就说明问题了。
统计方法本身就有问题。
如果只比较均值不能说明什么,至少需要加上标准差再用t-test来计算显著性。
您举的例子,如果对所有人群的样本计算p值,显著性一定是不高的。
我对p-value计算不了解。能不能用男女生入学问题作一个例子,帮我们普及一下?
铁老大都说话了面子不能不给。那我写一个,写一个啊。
和平均值如何综合考虑的呢?