淘客熙熙

主题:【原创】历史学中的逻辑学和哲学:从庐山会议谈起(中) -- 九霄环珮

共:💬57 🌺123 🌵16
分页树展主题 · 全看首页 上页
/ 4
下页 末页
  • 家园 【原创】历史学中的逻辑学和哲学:从庐山会议谈起(中)

    关于庐山会议,网络上流传着各种各样的来自各个方面的“诠释”。其中,有许多说法有一个共同点,那就是说,彭的上书挑战了毛泽东的威信,而毛泽东为了维护自己个人威信,从而把彭德怀同志为首的几个人打作反党集团。许多说法绕来绕去,逻辑上仍然是以这个为底本,可能会做一些局部的调整,比如,在其中加入一些性格分析,把历史人物的性格列入影响历史的重要因素。比如,有观点认为,彭德怀的性格是有重大缺陷的,自卑,自傲,急躁,粗鲁,认为这样的性格对庐山会议的走向起到了重要作用。关于庐山会议,网上还流传着其它措辞和观点更为激烈的说法,对历史人物的褒贬都走向极端的地步,但是,极端的东西信的人也极少。而上面论及的言辞不太激烈极端的说法倒是有许多人相信。下面我就要谈谈上面的观点在逻辑上和历史观上的问题。

    不管是专业历史学者,还是民间的历史爱好者,他们在论及历史事件的时候,一般有两种方式,一种完全是罗列事实。另一种方式是,在列举事实的同时,插入作者个人对历史的理解、分析和评判。对于前一种,读者需要注意的是,作者罗列的东西和事实是否相左,但更加需要注意的是作者是否有选择地遗漏了一部分史料而重点交代了另一部分史料——这就叫裁剪,这种手法在新闻报道中也是屡见不鲜,表面上看也是貌似客观的。

    那么对于第二种方式呢?那种有叙有议的文章,有什么奥妙呢?对于这种文章,读者除了需要注意史料方面的真实性和裁剪与否之外,还有注意作者给出的观点在逻辑上的可靠性。那么这就涉及到一个在历史学范围内的逻辑问题。历史学范围内的观点当然是需要证据的,这是众人无异议的共识。但是,怎样从有限的证据得出可靠的结论,这恐怕是一个难以回答的问题。史学界有一句名言:“大胆假设,小心求证”,这只说了一个原则,大胆假设好办,小心求证则难了,怎么才算小心呢?逻辑,逻辑,什么才叫逻辑呢?历史学研究究竟应该遵循什么样的逻辑呢?具体地说,假设我们想要论证“毛泽东在庐山会议的决策是出于维护个人威信的需要”这样一个观点,我们需要什么样的论证才算是可靠,才算是符合逻辑的呢?至少要给参与讨论的各方提供一个论辩的共同的框架吧。总不能把毛泽东的话一摆,就得出结论吧。

    关于思维的逻辑,古老的亚里士多徳早就提出过著名的三段论,可惜这个逻辑工具在这里几乎是无用的。他那个学说基本上是这样的:先给个定律A->B,意思是如果A这个事件成立,则B这个事件也一定成立,然后一旦我们给出条件(事件、证据等等)符合A的要求,则我们得到B的结论。这个三段论的一个局限在于,这个世界的事情很少有那么绝对,我们在实际生活中很少能找到真正的类似A->B这样的定律,很多事情都是带有一定的可能性,有的很可能,以至于成为所谓的常识,有的则不大可能,但你无法真正否定它的可能性。天上有乌云则很可能下雨,但并不一定会下雨。天上出太阳则不大可能下雨,但也不是真的完全不可能,不是还有太阳雨嘛。而历史学研究中,我们所要求证的假设和所能得到的证据之间很少有绝对的三段论式的定律存在,所以,我们需要新的工具,新的逻辑框架。

    我们寻求的新的逻辑框架应该满足这样的要求,首先,它应该最终给出一个假设(Hypothesis)的可信度,这个度量不是“是/非”这样二元性的答案,具体地说,我们希望它是一个介于0和1之间的数值,当可信度为0时,表示假设完全不可信,当可信度为1时,则表示假设完全可信,而中间某个数值,比如0.8则表示大体上可信,0.2则表示大体上不可信。关于这个可信度的非二元性,我希望大家能够取得一定的共识,那就是说,一个假设,常常是没有绝对的可信与不可信的,而经常是介于中间的某个值。

    这个新的逻辑框架还要满足另外的要求。在我们进行历史学论证时,我们常常处在一个复杂的系统中,这个系统涉及多个证据和多个假设。一个证据的存在可能由于多种原因。比如,毛泽东说了很多话,其中很多话都能够被某些历史研究者作为论据来证明毛的心理动机,但是,毛说的任何一句话,都可能出于这样或那样的动机。也就是说,我们在论证的时候,不但要考虑自己喜欢的目标假设,还要考虑与自己的假设对立的其它可能。我们要考虑对自己的假设有利的证据,又要考虑对自己的假设不利的证据。所以这是一个复杂的系统,那么我们究竟应当怎样建立一个模型,可以让我们有一个比较可靠的方式来思考问题呢?

    下面我就要介绍一个叫作Bayesian inference的东西恰好可以运用在这个历史学的论证工作当中。我不十分确定中文学术界怎么翻译,这里我把它翻译为贝叶斯推理。贝叶斯推理的背后是贝叶斯概率论(Bayesian probability 或 Bayesianism)。贝叶斯概率论是相对于frequency probability一个比较新的处理概率的理论。贝叶斯概率论可以在许多领域发生重大应用,甚至,在整个科学哲学的层次,也有人阐述过贝叶斯概率论的强大思想,具体可以参阅PROBABILITY THEORY: THE LOGIC OF SCIENCE这本书。这本书实际上太监了,作者未完成就去世了,但大体上已经完成,网上有免费版本(http://omega.math.albany.edu:8008/JaynesBook.html)。注意一下这本书的书名,他是在科学逻辑的角度讲概率论的,也是从概率论的角度看待人类科学的。这本书被誉为最伟大的概率论著作之一。

    一个贝叶斯推理系统一般包括两类变量,一类是证据(evidence),另一类是假设(Hypothesis)。我们可能有多个证据,也可能有多个假设,在庐山会议这个历史学例子中,证据可以是毛泽东发表的讲话,批示的文件等等。假设是毛泽东的心理动机。注意,历史学中研究历史人物的心理动机有多大意义是我后面要谈论的话题,这里我们假定研究毛的心理动机是一个有意义的工作。那么毛泽东说话办事动机可能有多种,可能是出于维护个人威信的需要,可能是维护社会主义建设总路线的需要,也可能是出于服从民主集中制这个组织原则的需要,还有可能是动了感情一时冲动,等等等等。为清楚起见,列举如下,注意,这里只是作为一个例子介绍贝叶斯推理,并不旨在提供全面的证据和假设:

    E1:证据1,可以是毛的某句话。可以毛在庐山会议上的,比如说彭和他“三分合作,七分不合作”

    E2:证据2,可以是庐山会议以后的某个时间的,比如后来毛说庐山会议他是不满意的的云云。

    E3:证据3,某批示。

    E4:证据4,?

    ....

    H1:假设1,毛的动机是出于维护个人威信。

    H2:假设2,毛的动机是出于维护总路线。

    H3:假设3,毛的动机是出于服从组织的民主集中制。

    H4:假设4,毛说话的当时一时大脑冲动,情绪有所失控。

    ...

    这个系统中,有几点是需要注意的,首先,证据是可以被人观测的客观存在;而假设是人们观测不到的隐藏变量,这里具体表现为毛泽东的内心心理动机。一个是可以观测到的,一个是隐藏的,而证据和假设之间是有相互依赖关系的,也就是说他们不是相互独立存在的。一个心理动机可能诱发毛说这句话,那句话。一句话也可能源于这个动机,那个动机。但是呢,一般来说,一个简单的贝叶斯推理系统,我们认为各个证据之间彼此是相互独立的,各个动机之间也是相互独立的。这可能和真实世界有所偏差,比如维护个人威信和维护总路线是否有一定的联系?(倘若我们认为有联系,那么又有什么根据呢?所以总的来讲,这个问题很复杂,我希望大家到这里还没有晕掉)这里为简单起见,我们把两者作为相互独立变量,意思是说,维护个人威信是为私,维护总路线则为公。话说回来,我在这里只是举个例子介绍贝叶斯推理系统,这些假设的建立也只是例子,也许有更好的建立假设的方式。要点是证据之间相互独立,假设之间相互独立,但证据和假设之间是有依赖关系的。另外,要注意,公正的推理应该搜集多方面证据,也要建立多方面假设,不能只选择自己喜欢的方面。最后,也许证据是无穷的,假设也许也是无穷的,这就是说这个问题是异常异常复杂,这是人们需要认识到的困难!有时候我们只有有限的证据,只选择了最重要的有限的假设,某些时候这也是可以理解的。

    我们的目的是什么呢?我们的目的是在手上收集到若干证据的时候,通过某种比较可靠的推理来为每一个假设提供一个可信度。下面就要开始运用到一些概率论的基础知识了,对于没有学过(或学过但忘了)的朋友,其实这些概念都不难理解。

    我们从最简单情况开始,先只讨论一个证据和一个假设。我们将要用到些概率论符号。P(A)表示一个变量A为真的概率(可能性/可信度)。P(A,B) 表示变量A和变量B同时为真的概率。另外,P(B|A)表示当一个变量A为真时另一个与A有依赖关系的变量B为真的概率,这个叫条件概率。我们还有一个条件概率定理:

    P(A,B) = P(B|A)P(A) = P(A|B)P(B) (注意: P(B|A)P(A)表示P(B|A)乘以P(A)。)

    于是我们就得到贝叶斯定理:

    P(A|B) = P(B|A)P(A)/P(B) (注意:“/”表示除号)

    在我们的从证据推倒假设可信度的问题中运用贝叶斯定理,令H表示某个假设变量,令E表示某个证据变量,我们得到:

    P(H|E) = P(E|H) P(H) / P(E)

    那么这个式子表示什么含义呢?写到这里,我知道已经有一大半的人撤了,假如你还在看的话,请放心,这玩艺不难,我要解释一下贝叶斯定理,也是贝叶斯推理的基础。

    P(H|E)表示在我们得到证据E的条件下某个假设H成立的概率。这个叫作后验概率(posterior probability).比如当毛说了“三分合作,七分合作”之后,根据这句话我们可以推测出毛出于维护个人威信的动机的可信度有多高。

    P(E|H)表示当假设成立的情况下导致某个证据E发生的概率。这个叫似然函数(likelihood function).比如当毛的动机为维护个人威信的时候,说“三分合作,七分合作”的概率有多大。

    P(H)表示当我们没有任何证据时,相信假设H为真的概率。这个叫先验概率(prior probability)。比如我们什么证据也没有的情况下,你相信毛的动机是维护个人威信的可信度。你可能会问,怎么会有这个怪东西,我们怎么能在没有证据的情况下办事呢?呵呵,这个世界常常就是这样的,总是有些先入为主的东西。

    P(E)叫边缘概率(marginal probability),P(E)需要表达为一个和式:

    P(E) = P(E|H1)P(H1) + P(E|H2) P(H2) + ... + P(E|Hn)P(Hn).

    这个怪东西是什么意思呢?是这样的,一个证据,比如毛讲了个什么话,是有可能出于多种动机的,这里算了有n种动机,我们算了一下每种动机下毛说此话的概率是多少,再乘以这个动机的先验概率,最后把所有情况求和,这就是说P(E)表示证据E发生的一个总的可能性。

    好了,这个定理说了什么呢?它说的是,拿到一个证据以后,我们预先设定的假设(H)的可信度是要被改变的,怎么改变的呢?就是预先先入为主的那个先验概率乘以一个因子,这个因子就是P(E|H)/P(E)。这个因子可能大于1,也可能小于1。可想而知,如果P(E|H)>P(E)则比值大于1,对先验概率给予放大作用,也就是说此证据对假设起支持作用;如果P(E|H) < P(E),则比值小于1,先验概率被缩小,也就是说此证据对假设起反驳作用。P(E|H)>P(E)时,直觉的解释是,一个证据一般是不大容易发生的(P(E)较小),而如果H为真则E发生的概率很大(P(E|H)较大)。P(E|H)<P(E)则取相反的解释。

    这个时候,你可能会问,这个贝叶斯定理不就是把一个后验概率P(H|E)转换成另外几个概率的乘除吗?貌似反而搞复杂了。其实这个定理简单的算式背后隐藏着深刻的思想。首先,H不但是一个隐藏的变量,而且它还是一个作为“因”的变量,而证据则作为一个“果”的变量,也就是说H和E存在一定的因果关系。而我们的目标,无非是从已知的被发现的结果去寻求隐藏的原因。在实际运用当中,我们常常发现似然函数P(E|H)比较容易得到,比较自然,因为这是从原因到结果的顺推关系,在许多应用中我们可以用一个比较常用的概率分布来建立模型。

    思想深刻的第二个原因,也许更为重要,在于,这个定理允许我们把多个证据迭加起来共同发生作用,并且,我们可以来一个证据考虑一个证据,从第一个证据开始考虑,不断接受新的证据,不断修改我们的后验概率。例如,我们开始只有证据E1, 则后验概率P(H1|E1) = P(H1)(P(E1|H1) / P(E1))。当我们接受到第二个证据E2时,后验概率变成P(H1|E1,E2) = P(H1)(P(E1|H1)/P(E1))(P(H1|E2)/P(E2))。当我们接受第三个证据时,再继续如此修改后验概率。在这个过程中,我们可以类似地对假设H2,H3,H4计算它的后验概率。

    好了,现在我们再来分析评价一下这个逻辑推理的框架。当证据很少时,先验概率P(H)的影响比较大,当证据越多,则先验概率的影响越小,当证据相当多的时候,先验概率的影响是可以忽略的,也就是说,先验概率取多少并不太要紧。但当你证据少,那么先验概率对结果的影响就特别大,这意味着你证据少的时候,结果在比较大的程度取决于你先入为主的先验,这可能是一种偏见!其次,一个证据可能对后验概率起到放大的修改作用,也可能起到缩小的修改作用,这正是我们要求这个系统能够做到的。再次,这个系统不但可以考虑多个证据,而且考虑到多个假设,并且,在考虑任意一个假设的后验概率时,其它假设也被纳入推理的过程之中,而不是仅仅考虑一对对的孤立的假设与证据之间的关系。

    贝叶斯推理应用非常广泛。对于历史学中的推理,贝叶斯推理告诉我们,应该选择尽可能多的证据,应该考虑多种假设,这正好是和历史学论证的直觉是吻合的,这其实是事物内在的本质决定的,而贝叶斯推理只不过是现实世界合理的逻辑推理的形式化和规范化!

    那么您可能会问,至于这样复杂吗,历史学家写论文都是这么来的吗?我想,高水平的负责任的历史学家在通过证据论证观点的时候,他的思维过程一定是符合贝叶斯推理的,即使他没有把一步步的推理定量地纪录下来。

    通过介绍贝叶斯推理,我们再回到初始的问题,比如说,毛在庐山的决策出于维护个人威信的可信度有多大,我们现在应该能够认识到,要回答这个问题,逻辑论证的工作是多么艰巨,需要考虑诸多证据,毛泽东诸多可能的心理动机。更为糟糕的是,在这个问题的具体推理过程当中,似然函数P(E|H)的取值仍然是一个很成问题的事情。比如当假设H为毛的动机是维护个人威信,证据E为毛说“三分合作,七分不合作”,这时的似然值P(E|H)究竟该取多少,对于不同的人来说,还是一个很随意的事情,为什么搞到这样的地步呢?这不是贝叶斯推理的问题,而是你要解决的问题本身的问题。你要想去了解一个人的心理动机,这种事情,本来就是极端困难的!除非你能够通灵,否则贝叶斯推理是你能够运用的最合理的工具。

    好了,我这里主要还是介绍贝叶斯推理,希望能给大家一点感性认识,同时,我也希望大家认识到推测别人的心理动机是一件极端困难的事情,所需要做的工作是相当相当巨大的,而最后的结果的说服力仍然可能是成问题的,即使你采取最科学的方法,付出了极大的工作量。所以,不要轻易地相信什么毛泽东在庐山的动机是为了维护个人威信。同样的道理,也不要轻易相信庐山会议的走向是源于彭德怀的性格问题。我这一篇,讨论了如果要去论证这些观点则应该怎样论证。下一篇讨论这种从心理动机和人物性格看待历史有什么价值,有什么意义,等等。

    关键词(Tags): #历史#庐山会议#贝叶斯通宝推:回旋镖,唵啊吽,
    • 家园 提个问题

      历史学家写论文都是这么来的吗?我想,高水平的负责任的历史学家在通过证据论证观点的时候,他的思维过程一定是符合贝叶斯推理的,即使他没有把一步步的推理定量地纪录下来。

      请问,这仅仅是你的想像,还是有数据支持的?

      谢谢

      • 家园 Good question.

        所谓数据,我猜你指的是问卷调查这一类吧。

        如果我们问卷调查高水平的历史学家,问他们是不是按照贝叶斯来办的,那么很可能他们连贝叶斯三个字听都没听过,但是如果我们问他们以下问题:

        是不是同时考虑正反两方面证据,

        是不是尽可能考虑多个重要的证据,

        是否允许在有限证据的情况下提出结论,

        是否等出现新的证据允许修改结论

        结论不一定是断论,

        等等等等,

        那么,他们很可能是要点头同意的——哈哈,这也是我想的,我为什么这么想,因为这样是符合科学精神的。

        你问我要数据,我可没有这种问卷调查的数据。不过,据我所知,至少有一位历史研究者是同意这个意见的,是谁我就不说了,因为一个采样也说明不了多大问题。

        • 家园 也就是说

          你所说的这个论断仅仅是你的猜想,认为“很可能”而已。而事实上,就你所知,除了一个你不愿意给出姓名的研究者之外,并没有任何可靠的实例。是这样吗?

          谢谢

          • 家园 如果您存着真诚的讨论心态,不妨关注一下贝叶斯推断到底讲的

            如果您存着真诚的讨论心态,不妨关注一下贝叶斯推断到底讲的是什么。

            我确实没有采访过什么历史学家,所以,我在原文的语气上也是注意的,但我的想法也不是胡猜。

            另外,我这篇文章的重点是什么,我想大家应该比较清楚。

    • 家园 某一天毛泽东日记

      解密,一切问题都解决了,花一朵。

    • 家园 谢楼主推荐的好书

      刚开始一看贝叶斯什么的,还以为这人是搞经济的,去网页上一看,原来还马马虎虎算个同行。书很好。

    • 家园 这才是历史论证之道啊,花花花~~~~~~~~
    • 家园 你所说的论点的核心其实和Bayesian分析无关

      其实就是“子非鱼,安知鱼之乐”,我们很难有压倒性的证据来证明心理动机。但是问题在于历史研究的绝大多数问题都没有Beyond reasonable doubt的证据。庐山会议的材料比起古代史要多好多。照这个逻辑,古代史就没法写了。因此历史研究并不需要刑事审判那么高的证据要求。历史学家任务是找到解释现有材料最好的假设。用统计学的话来说,就是个maximum likelihood estimator。但是“最好”的这个词其实很主观,统计学里需要选择概率模型。不同的模型会导致不同的解。模型的选择也是靠经验,没什么太好的理论,(Bayesian分析里Prior的选择更是问题多多)。因此一个假设只要能够和绝大多数史料符合,就是很好的假设。庐山问题上,我觉得史MM还是作得不错的。

      • 家园 你其实对贝叶斯推断还不太了解啊。

        历史学家任务是找到解释现有材料最好的假设。

        这一点你说得太对了,但是你没有意识到,贝叶斯推断就是干这事的呀!贝叶斯推断本身并不对证据提出多少要求,有一个证据可以运用,有十个证据也可以运用。

        有多少证据讲多少话是贝叶斯推断的重要本质之一。

        同时考虑多个证据是本质之二。

        adaptive to new evidences是本质之三。

        ...

        Prior的问题不严重,对于三个假设,我们可以给予它们相同的Prior,不偏不倚。看来你对Prior有误解,不要被名词忽悠了。

        对于心理动机分析问题,真正有问题的是似然函数的确定没有公认的标准,这个实质上心理动机分析本身的问题。

        maximum likelihood estimator对于历史学问题太过粗糙了。我就不具体说了。

        • 家园 不仅是心理分析,就是社会科学研究

          似然函数的确定也没有没有公认的标准。就说最简单的回归分析,你怎么知道误差是Normal还是Uniform?照这个标准,社会科学的经验研究就不要做了。

分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河