淘客熙熙

主题：投票【原创】辛普森悖论 -- earthcolor

共:💬52 🌺28

老大河待整

投票信息
单选，参与 19 / 9
0
4/2
0
11/5
0
4/2
0
0/0

全看树展主题 · 分页首页上页下页末页

复看楼下我的例子

你举的例子就是A和B在不同样本中分别进行的实验啊。

你举的例子就是A和B在不同样本中分别进行的实验啊。要不什么叫“符合A”“符合B”呢？

复当然是选b

你被忽悠了

出现这种结果，必然的原因是A和B的测试样本中男女比例不同。。当考虑到相同的男女比例时，B的总体效果肯定比A好。

好,假设你面对的是个男病人,选了B,如果我再继续告诉你,在参加测试的男病人里,如果分各个年龄段分别统计,A的效果均好于B,那么根据你的逻辑:

出现这种结果，必然的原因是A和B的测试样本中年龄段比例不同。当考虑到相同的年龄段比例时，A的总体效果肯定比B好。

哈哈,你是不是现在改变注意选择A呢?

继续继续,我们知道这个男病人有过往病史,我们再在这个男病人的年龄段中选择有过往病史的进行统计,发现B的效果又比较好,那么你的选择是否又变回B?

.......

你被辛普森悖论给忽悠了.啥时候聊聊变量选择在统计中的作用吧.

复【原创】辛普森悖论

没给标准差，你的统计没有意义

没有什么悖论不悖论。因为你完全没有给出统计的偏差。只给一个平均值意义不大。

假设把分类进行到底，一个人一类，酒香你说得那样，那标准差和样本差不多一样大，根本这种统计就没有意义。对于抽烟的研究也一样，每多进行一步分类，95%可信度的区间也就越大，研究结果也就越不可信。究竟到哪一步就完全不可信，并没有一个硬性的划分，但是每一步都更加不可信几乎是一定的（除非成绩大跃进地提高，那么根据我高考前的经验，抽烟确实比较好。。。。）

对于药效，不光有置信度，还要考虑副作用，问题就更复杂了。所以你的问题的标准答案应该是：信息严重不足，吃哪种就看谁给开回扣了。比如最近闹得很凶的降血脂药，一月底的时候公开了一个为期五年的临床试验结果，发现Vytorin，也就是simvastatin和Zetia的合剂，降血脂(LDL)的效果比单吃simvastatin要好很多。但是降血脂的同时，心脏病发病率不但没有下降，死亡率反倒有所上升。而药品公司推动降血脂药的唯一目标就是预防心脏病死亡。这个结果被药厂藏了一年，但在压力之下还是不得不公布。股价跟心脏病发病率是负相关，那就不要提了。其实其他所有的降血脂药，包括Liptor都有这个死穴——LDL是降了，但是死亡率完全没有变化（只对已经得过心肌梗塞半死不活的病人有疗效）。究其原因，药品不光要考虑临床试验的疗效（降脂），临床试验的标准差，也要考虑这个疗效的绝对值（number needed to treat），最后要归结到实际对死亡率的降低/生活品质的提高。

我来考虑一下这里要不要挖个坑。。。

那个叫做悖论的东西，没有给样本大小，也没有给疗效的绝对值，是辛普森扯淡不是悖论。

复你被忽悠了

呵呵。。选择。

那么一个问题：到底是要按照年龄来确定结果呢还是要按照性别来确定结果？

您只给了按照性别的结果，那么当然只能按照性别来进行选择。

如果只给了年龄结果，那么当然只能按照年龄的结果来选择。

如果既给了年龄有给了性别，那么就要根据年龄-性别的结果来选择。

增加选项是个分析过程。而当结束分析过程以后，而选择是基于分析过程的结果之上的。

你可以加入任意个选项。但是当你确定了你的选项以后，结果不是唯一的么？

复呵呵。。选择。

问题是：在分析的过程中，要不要加入新的变量？

正像你所说的，如果变量已经确定了，那么结果可能是唯一。

问题是：在分析的过程中，要不要加入新的变量？

因为加入新的变量后，结论可能完全相反。而加不加一个变量，都很难有特别充分的理由。所以，在这样的数据分析中，变量选择是一个非常重要的问题。

复没给标准差，你的统计没有意义

欢迎挖坑！把统计偏差的影响多讲些

就我所知，到目前为止，辛普森悖论还没有被普遍接受的解释。所以很适合讨论。

对于统计偏差在辛普森悖论中的影响，我真不清楚。

看看东方射日:不对啊，老酒。中的例子，好像数据扩大10倍或100倍，都不影响这样的情况：当加入一个新的变量，分析结果可能完全相反。

你的帖子中关于降血脂药的例子，只是说明血脂和心脏病发病率之间没有一个简单的线性关系，而且其他因素会影响心脏病发病率。药品公司肯定知道他们商品的缺陷，却用一个中间变量(血脂含量)来代替最终变量进行统计分析，用数据故意误导消费者。这个例子没有选择正确的因变量。

在辛普森悖论中，问题是自变量的变化，会影响分析结果。

复问题是：在分析的过程中，要不要加入新的变量？

加不加变量，是系统模型问题

和统计方法无关。

对统计结果来说，加之前和加之后都是合理的，无论他们有多大的偏差，并且结果不可比较。

复加不加变量，是系统模型问题

我们认识上有差异。我的观点是：变量选取在统计中是很重要的

你说“加不加变量，是系统模型问题”，是另外一种观点。将变量选取和统计分析看作两部分分离的工作。

而我认为变量选取和统计分析是统一在一起的，不可分割的。当然，变量已经事先确定好了，就不需要在进行变量选取这一步了。

我们只是观点不一样。

复没给标准差，你的统计没有意义

要求挖坑。很有意思，虽然和earthcolor的本意不完全一样

复没有经验，胡乱说几句

我的理解，一是建模，二是利用已有统计结果作判断

统计模型提供了判断的基础，“判断”本身也涉及到规则确定。统计模型会需要调整，“判断”规则也可能会需要调整。最终则取决于效果。

复没给标准差，你的统计没有意义

赞同

我也认为应该称为辛普森谬误。楼下举的几个例子，如果从采样空间的先验概率分布看，是很容易理解的。

所以做统计时不应该只看均值，还需要考虑样本分布的情况。比如男女生入学比例的那个问题，各个学院的录取率相差很多，样本分布是multi-model,均值代表不了什么，一算p-value就说明问题了。

复你被忽悠了

这不是加不加变量的问题

统计方法本身就有问题。

如果只比较均值不能说明什么，至少需要加上标准差再用t-test来计算显著性。

您举的例子，如果对所有人群的样本计算p值，显著性一定是不高的。

能不能讲仔细一点？

我对p-value计算不了解。能不能用男女生入学问题作一个例子，帮我们普及一下？

复要求挖坑。很有意思，虽然和earthcolor的本意不完全一样

本来想卖个破绽趁机溜掉

铁老大都说话了面子不能不给。那我写一个，写一个啊。

复【原创】辛普森悖论

“疗效好坏”是如何比较的呢？除了平均值？考不考虑标准差？

和平均值如何综合考虑的呢？

全看树展主题 · 分页首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

Copyright © cchere 西西河

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明