主题:投票【原创】辛普森悖论 -- earthcolor
- 投票信息
单选,参与 19 / 9
04/2011/504/200/0
A 不区分性别有效
B 分别对男人和女人有效
那就只能问楼主的样板里,双性人占据多高的比例了........
这个似乎不是悖论,而是诱骗.
原题怎么个悖论法呀?至少说下原解答怎么个说法呀.
4年1度的日子里,特别高兴踩个脚印,好象当年风景区用破刀子刻个"XX到此一游".呵呵
Judea Pearl的解释比较流行:在具体统计应用中,不要将统计中的相关关系和实际系统的因果关系混淆起来。这种解释的问题在于:在很多实际系统中,我们不知道系统中变量的因果关系,而是要通过统计,试图发现因果关系。Judea Pearl要求我们已经知道结果了,统计实验也就没有必要去做了。如果我们不知道系统中真正的因果关系,辛普森悖论在统计数据中的存在,就要引起大家的争论。
我认为,辛普森悖论的要点在于:增加了新的变量,统计的结论可能会相反;而加不加新的变量,大家很难达成一致的认识。有的情况,加一个特定的变量可以被大家接受,但这不代表这种解决方案适用于所有存在辛普森悖论的情况。因为,再加入一个变量,又会改变统计的结论,就像在投票说明中讲的那样。
有很多研究人员从概率、统计和哲学方面考虑这个问题。google搜索一下,会有不少资料。英文是:Simpson's paradox
中文维基
http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA
英文维基
http://en.wikipedia.org/wiki/Simpson%27s_paradox
至于那个学生吸烟与学习成绩关系的例子,大概是不完备.增加二分类项,就要按总分类数2^N来建立结果分析表.如白人黑人,大于或小于15岁,吸烟或不吸烟这三分类,结果要有8项,
白人大于15岁吸烟
白人大于15岁不吸烟
白人小于15岁吸烟
白人小于15岁不吸烟
黑人大于15岁吸烟
黑人大于15岁不吸烟
黑人小于15岁吸烟
黑人小于15岁不吸烟
并将实际数据统计完毕后,才可以得到结论.
或许是对您的例子理解不正确,但这例子若按这8细目进行统计,会得到比较稳定的结果吧.
如果吸烟和学习成绩之间本没有因果关系,根据统计数据来推论吸烟和学习成绩之间的关系,可能得出各种不同的结论;而各种结论,与“吸烟和学习成绩之间本没有因果关系”这个条件之间没有关系。也就是说,我们根本不需要去做这种统计测试。在学生入学中有没有歧视女生的例子中,决定入学的主要条件是成绩(成绩和录取率之间有因果关系)。如果只谈论男女生的录取率,而忽略成绩,讨论就没有意义了。
问题是:我们很难确定地说“吸烟和学习成绩之间本没有因果关系”。根据我的理解,这就是有了Judea Pearl对辛普森悖论的解释后,依然没有解决在实际应用中的问题.
另外,有些问题中,增加新的变量是不合适的。参见英文维基
http://en.wikipedia.org/wiki/Simpson%27s_paradox 中的编辑的例子。所以,不能单纯地增加变量的方法解决辛普森悖论。
您的那个性别歧视的例子很好,某似乎明白了这个悖论的意思了.
录取学生没有性别歧视,只考虑成绩.若从录取的学生中进行性别比例分析,不能得到男女智力差别之类的结论.只有对录取男女学生分别统计分数才能得到类似(性别对专业的适应性)的结论.
若换作城市和乡村的学生录取,没有居住地的歧视,只考虑成绩.若对录取学生进行城乡比例的分析,不能因此得出城市或农村学生哪类更聪明的结论.只有对城乡学生分数分别统计再对比,才能有比较有用的结论.
不知理解对否.最后的判断是,任何统计最好有尽量多的记录参数.......呵呵,有了更多的数据项及其原始数据,就更容易用各种分析手段获得有效结果了.