主题:【原创】历史学中的逻辑学和哲学:从庐山会议谈起(中) -- 九霄环珮
关于庐山会议,网络上流传着各种各样的来自各个方面的“诠释”。其中,有许多说法有一个共同点,那就是说,彭的上书挑战了毛泽东的威信,而毛泽东为了维护自己个人威信,从而把彭德怀同志为首的几个人打作反党集团。许多说法绕来绕去,逻辑上仍然是以这个为底本,可能会做一些局部的调整,比如,在其中加入一些性格分析,把历史人物的性格列入影响历史的重要因素。比如,有观点认为,彭德怀的性格是有重大缺陷的,自卑,自傲,急躁,粗鲁,认为这样的性格对庐山会议的走向起到了重要作用。关于庐山会议,网上还流传着其它措辞和观点更为激烈的说法,对历史人物的褒贬都走向极端的地步,但是,极端的东西信的人也极少。而上面论及的言辞不太激烈极端的说法倒是有许多人相信。下面我就要谈谈上面的观点在逻辑上和历史观上的问题。
不管是专业历史学者,还是民间的历史爱好者,他们在论及历史事件的时候,一般有两种方式,一种完全是罗列事实。另一种方式是,在列举事实的同时,插入作者个人对历史的理解、分析和评判。对于前一种,读者需要注意的是,作者罗列的东西和事实是否相左,但更加需要注意的是作者是否有选择地遗漏了一部分史料而重点交代了另一部分史料——这就叫裁剪,这种手法在新闻报道中也是屡见不鲜,表面上看也是貌似客观的。
那么对于第二种方式呢?那种有叙有议的文章,有什么奥妙呢?对于这种文章,读者除了需要注意史料方面的真实性和裁剪与否之外,还有注意作者给出的观点在逻辑上的可靠性。那么这就涉及到一个在历史学范围内的逻辑问题。历史学范围内的观点当然是需要证据的,这是众人无异议的共识。但是,怎样从有限的证据得出可靠的结论,这恐怕是一个难以回答的问题。史学界有一句名言:“大胆假设,小心求证”,这只说了一个原则,大胆假设好办,小心求证则难了,怎么才算小心呢?逻辑,逻辑,什么才叫逻辑呢?历史学研究究竟应该遵循什么样的逻辑呢?具体地说,假设我们想要论证“毛泽东在庐山会议的决策是出于维护个人威信的需要”这样一个观点,我们需要什么样的论证才算是可靠,才算是符合逻辑的呢?至少要给参与讨论的各方提供一个论辩的共同的框架吧。总不能把毛泽东的话一摆,就得出结论吧。
关于思维的逻辑,古老的亚里士多徳早就提出过著名的三段论,可惜这个逻辑工具在这里几乎是无用的。他那个学说基本上是这样的:先给个定律A->B,意思是如果A这个事件成立,则B这个事件也一定成立,然后一旦我们给出条件(事件、证据等等)符合A的要求,则我们得到B的结论。这个三段论的一个局限在于,这个世界的事情很少有那么绝对,我们在实际生活中很少能找到真正的类似A->B这样的定律,很多事情都是带有一定的可能性,有的很可能,以至于成为所谓的常识,有的则不大可能,但你无法真正否定它的可能性。天上有乌云则很可能下雨,但并不一定会下雨。天上出太阳则不大可能下雨,但也不是真的完全不可能,不是还有太阳雨嘛。而历史学研究中,我们所要求证的假设和所能得到的证据之间很少有绝对的三段论式的定律存在,所以,我们需要新的工具,新的逻辑框架。
我们寻求的新的逻辑框架应该满足这样的要求,首先,它应该最终给出一个假设(Hypothesis)的可信度,这个度量不是“是/非”这样二元性的答案,具体地说,我们希望它是一个介于0和1之间的数值,当可信度为0时,表示假设完全不可信,当可信度为1时,则表示假设完全可信,而中间某个数值,比如0.8则表示大体上可信,0.2则表示大体上不可信。关于这个可信度的非二元性,我希望大家能够取得一定的共识,那就是说,一个假设,常常是没有绝对的可信与不可信的,而经常是介于中间的某个值。
这个新的逻辑框架还要满足另外的要求。在我们进行历史学论证时,我们常常处在一个复杂的系统中,这个系统涉及多个证据和多个假设。一个证据的存在可能由于多种原因。比如,毛泽东说了很多话,其中很多话都能够被某些历史研究者作为论据来证明毛的心理动机,但是,毛说的任何一句话,都可能出于这样或那样的动机。也就是说,我们在论证的时候,不但要考虑自己喜欢的目标假设,还要考虑与自己的假设对立的其它可能。我们要考虑对自己的假设有利的证据,又要考虑对自己的假设不利的证据。所以这是一个复杂的系统,那么我们究竟应当怎样建立一个模型,可以让我们有一个比较可靠的方式来思考问题呢?
下面我就要介绍一个叫作Bayesian inference的东西恰好可以运用在这个历史学的论证工作当中。我不十分确定中文学术界怎么翻译,这里我把它翻译为贝叶斯推理。贝叶斯推理的背后是贝叶斯概率论(Bayesian probability 或 Bayesianism)。贝叶斯概率论是相对于frequency probability一个比较新的处理概率的理论。贝叶斯概率论可以在许多领域发生重大应用,甚至,在整个科学哲学的层次,也有人阐述过贝叶斯概率论的强大思想,具体可以参阅PROBABILITY THEORY: THE LOGIC OF SCIENCE这本书。这本书实际上太监了,作者未完成就去世了,但大体上已经完成,网上有免费版本(http://omega.math.albany.edu:8008/JaynesBook.html)。注意一下这本书的书名,他是在科学逻辑的角度讲概率论的,也是从概率论的角度看待人类科学的。这本书被誉为最伟大的概率论著作之一。
一个贝叶斯推理系统一般包括两类变量,一类是证据(evidence),另一类是假设(Hypothesis)。我们可能有多个证据,也可能有多个假设,在庐山会议这个历史学例子中,证据可以是毛泽东发表的讲话,批示的文件等等。假设是毛泽东的心理动机。注意,历史学中研究历史人物的心理动机有多大意义是我后面要谈论的话题,这里我们假定研究毛的心理动机是一个有意义的工作。那么毛泽东说话办事动机可能有多种,可能是出于维护个人威信的需要,可能是维护社会主义建设总路线的需要,也可能是出于服从民主集中制这个组织原则的需要,还有可能是动了感情一时冲动,等等等等。为清楚起见,列举如下,注意,这里只是作为一个例子介绍贝叶斯推理,并不旨在提供全面的证据和假设:
E1:证据1,可以是毛的某句话。可以毛在庐山会议上的,比如说彭和他“三分合作,七分不合作”
E2:证据2,可以是庐山会议以后的某个时间的,比如后来毛说庐山会议他是不满意的的云云。
E3:证据3,某批示。
E4:证据4,?
....
H1:假设1,毛的动机是出于维护个人威信。
H2:假设2,毛的动机是出于维护总路线。
H3:假设3,毛的动机是出于服从组织的民主集中制。
H4:假设4,毛说话的当时一时大脑冲动,情绪有所失控。
...
这个系统中,有几点是需要注意的,首先,证据是可以被人观测的客观存在;而假设是人们观测不到的隐藏变量,这里具体表现为毛泽东的内心心理动机。一个是可以观测到的,一个是隐藏的,而证据和假设之间是有相互依赖关系的,也就是说他们不是相互独立存在的。一个心理动机可能诱发毛说这句话,那句话。一句话也可能源于这个动机,那个动机。但是呢,一般来说,一个简单的贝叶斯推理系统,我们认为各个证据之间彼此是相互独立的,各个动机之间也是相互独立的。这可能和真实世界有所偏差,比如维护个人威信和维护总路线是否有一定的联系?(倘若我们认为有联系,那么又有什么根据呢?所以总的来讲,这个问题很复杂,我希望大家到这里还没有晕掉)这里为简单起见,我们把两者作为相互独立变量,意思是说,维护个人威信是为私,维护总路线则为公。话说回来,我在这里只是举个例子介绍贝叶斯推理系统,这些假设的建立也只是例子,也许有更好的建立假设的方式。要点是证据之间相互独立,假设之间相互独立,但证据和假设之间是有依赖关系的。另外,要注意,公正的推理应该搜集多方面证据,也要建立多方面假设,不能只选择自己喜欢的方面。最后,也许证据是无穷的,假设也许也是无穷的,这就是说这个问题是异常异常复杂,这是人们需要认识到的困难!有时候我们只有有限的证据,只选择了最重要的有限的假设,某些时候这也是可以理解的。
我们的目的是什么呢?我们的目的是在手上收集到若干证据的时候,通过某种比较可靠的推理来为每一个假设提供一个可信度。下面就要开始运用到一些概率论的基础知识了,对于没有学过(或学过但忘了)的朋友,其实这些概念都不难理解。
我们从最简单情况开始,先只讨论一个证据和一个假设。我们将要用到些概率论符号。P(A)表示一个变量A为真的概率(可能性/可信度)。P(A,B) 表示变量A和变量B同时为真的概率。另外,P(B|A)表示当一个变量A为真时另一个与A有依赖关系的变量B为真的概率,这个叫条件概率。我们还有一个条件概率定理:
P(A,B) = P(B|A)P(A) = P(A|B)P(B) (注意: P(B|A)P(A)表示P(B|A)乘以P(A)。)
于是我们就得到贝叶斯定理:
P(A|B) = P(B|A)P(A)/P(B) (注意:“/”表示除号)
在我们的从证据推倒假设可信度的问题中运用贝叶斯定理,令H表示某个假设变量,令E表示某个证据变量,我们得到:
P(H|E) = P(E|H) P(H) / P(E)
那么这个式子表示什么含义呢?写到这里,我知道已经有一大半的人撤了,假如你还在看的话,请放心,这玩艺不难,我要解释一下贝叶斯定理,也是贝叶斯推理的基础。
P(H|E)表示在我们得到证据E的条件下某个假设H成立的概率。这个叫作后验概率(posterior probability).比如当毛说了“三分合作,七分合作”之后,根据这句话我们可以推测出毛出于维护个人威信的动机的可信度有多高。
P(E|H)表示当假设成立的情况下导致某个证据E发生的概率。这个叫似然函数(likelihood function).比如当毛的动机为维护个人威信的时候,说“三分合作,七分合作”的概率有多大。
P(H)表示当我们没有任何证据时,相信假设H为真的概率。这个叫先验概率(prior probability)。比如我们什么证据也没有的情况下,你相信毛的动机是维护个人威信的可信度。你可能会问,怎么会有这个怪东西,我们怎么能在没有证据的情况下办事呢?呵呵,这个世界常常就是这样的,总是有些先入为主的东西。
P(E)叫边缘概率(marginal probability),P(E)需要表达为一个和式:
P(E) = P(E|H1)P(H1) + P(E|H2) P(H2) + ... + P(E|Hn)P(Hn).
这个怪东西是什么意思呢?是这样的,一个证据,比如毛讲了个什么话,是有可能出于多种动机的,这里算了有n种动机,我们算了一下每种动机下毛说此话的概率是多少,再乘以这个动机的先验概率,最后把所有情况求和,这就是说P(E)表示证据E发生的一个总的可能性。
好了,这个定理说了什么呢?它说的是,拿到一个证据以后,我们预先设定的假设(H)的可信度是要被改变的,怎么改变的呢?就是预先先入为主的那个先验概率乘以一个因子,这个因子就是P(E|H)/P(E)。这个因子可能大于1,也可能小于1。可想而知,如果P(E|H)>P(E)则比值大于1,对先验概率给予放大作用,也就是说此证据对假设起支持作用;如果P(E|H) < P(E),则比值小于1,先验概率被缩小,也就是说此证据对假设起反驳作用。P(E|H)>P(E)时,直觉的解释是,一个证据一般是不大容易发生的(P(E)较小),而如果H为真则E发生的概率很大(P(E|H)较大)。P(E|H)<P(E)则取相反的解释。
这个时候,你可能会问,这个贝叶斯定理不就是把一个后验概率P(H|E)转换成另外几个概率的乘除吗?貌似反而搞复杂了。其实这个定理简单的算式背后隐藏着深刻的思想。首先,H不但是一个隐藏的变量,而且它还是一个作为“因”的变量,而证据则作为一个“果”的变量,也就是说H和E存在一定的因果关系。而我们的目标,无非是从已知的被发现的结果去寻求隐藏的原因。在实际运用当中,我们常常发现似然函数P(E|H)比较容易得到,比较自然,因为这是从原因到结果的顺推关系,在许多应用中我们可以用一个比较常用的概率分布来建立模型。
思想深刻的第二个原因,也许更为重要,在于,这个定理允许我们把多个证据迭加起来共同发生作用,并且,我们可以来一个证据考虑一个证据,从第一个证据开始考虑,不断接受新的证据,不断修改我们的后验概率。例如,我们开始只有证据E1, 则后验概率P(H1|E1) = P(H1)(P(E1|H1) / P(E1))。当我们接受到第二个证据E2时,后验概率变成P(H1|E1,E2) = P(H1)(P(E1|H1)/P(E1))(P(H1|E2)/P(E2))。当我们接受第三个证据时,再继续如此修改后验概率。在这个过程中,我们可以类似地对假设H2,H3,H4计算它的后验概率。
好了,现在我们再来分析评价一下这个逻辑推理的框架。当证据很少时,先验概率P(H)的影响比较大,当证据越多,则先验概率的影响越小,当证据相当多的时候,先验概率的影响是可以忽略的,也就是说,先验概率取多少并不太要紧。但当你证据少,那么先验概率对结果的影响就特别大,这意味着你证据少的时候,结果在比较大的程度取决于你先入为主的先验,这可能是一种偏见!其次,一个证据可能对后验概率起到放大的修改作用,也可能起到缩小的修改作用,这正是我们要求这个系统能够做到的。再次,这个系统不但可以考虑多个证据,而且考虑到多个假设,并且,在考虑任意一个假设的后验概率时,其它假设也被纳入推理的过程之中,而不是仅仅考虑一对对的孤立的假设与证据之间的关系。
贝叶斯推理应用非常广泛。对于历史学中的推理,贝叶斯推理告诉我们,应该选择尽可能多的证据,应该考虑多种假设,这正好是和历史学论证的直觉是吻合的,这其实是事物内在的本质决定的,而贝叶斯推理只不过是现实世界合理的逻辑推理的形式化和规范化!
那么您可能会问,至于这样复杂吗,历史学家写论文都是这么来的吗?我想,高水平的负责任的历史学家在通过证据论证观点的时候,他的思维过程一定是符合贝叶斯推理的,即使他没有把一步步的推理定量地纪录下来。
通过介绍贝叶斯推理,我们再回到初始的问题,比如说,毛在庐山的决策出于维护个人威信的可信度有多大,我们现在应该能够认识到,要回答这个问题,逻辑论证的工作是多么艰巨,需要考虑诸多证据,毛泽东诸多可能的心理动机。更为糟糕的是,在这个问题的具体推理过程当中,似然函数P(E|H)的取值仍然是一个很成问题的事情。比如当假设H为毛的动机是维护个人威信,证据E为毛说“三分合作,七分不合作”,这时的似然值P(E|H)究竟该取多少,对于不同的人来说,还是一个很随意的事情,为什么搞到这样的地步呢?这不是贝叶斯推理的问题,而是你要解决的问题本身的问题。你要想去了解一个人的心理动机,这种事情,本来就是极端困难的!除非你能够通灵,否则贝叶斯推理是你能够运用的最合理的工具。
好了,我这里主要还是介绍贝叶斯推理,希望能给大家一点感性认识,同时,我也希望大家认识到推测别人的心理动机是一件极端困难的事情,所需要做的工作是相当相当巨大的,而最后的结果的说服力仍然可能是成问题的,即使你采取最科学的方法,付出了极大的工作量。所以,不要轻易地相信什么毛泽东在庐山的动机是为了维护个人威信。同样的道理,也不要轻易相信庐山会议的走向是源于彭德怀的性格问题。我这一篇,讨论了如果要去论证这些观点则应该怎样论证。下一篇讨论这种从心理动机和人物性格看待历史有什么价值,有什么意义,等等。
我个人也认为是有些“扯”。。。。。
不过兄这篇强文太专业了哈!
哈哈哈哈哈哈。。.。
只是这么上中下的编号,
后面少不得来下上、下中、下下
显得没有前瞻,下一篇就用中2吧
我就从来没想到用个贝叶斯。虽然自己是学理工的,可多年文科工作,概率论和数理统计早还给学校了,现在连做个积分都困难,可惜了当年90多分的优秀成绩。。。
再次赞扬一下。
因为老毛是一个需要去掉的最高分。
以前一直为概率统计学界诟病。楼主这篇非常有启发性,谢谢!
不过说实话不喜欢这样的论证。
记住你不是要说服某人,你只是要把你所确认的某种东西表达出来,以期能引起一些人(这里的一些人是不确定的,也许你是因为某人而产生了写这篇东西的念头,但很可能这个某人不在这一些人中)的共识,然后在这大共识的小不同下产生对彼对此或对彼此都有益的进一步的深化认识。
很难想象你最开始确认的这种东西是通过这样的方法来达到的,那么你本来是怎么认识到就怎么写出来岂不是更好?采用这种看上去很客观的方法论证,反而会产生一种隔膜。就像你想说一本你觉得好的文学作品,你若直接说出自己的感受体会认识,会显得更直接,相反,如果你进行为什么这段文字会产生这种感受,那段文字为什么会有这样的体会等等的论证,那效果恐怕未必佳了。
不要试图说服每一个读者,能让你觉得能够知道的人知道就足够了。虽然人并没有绝对的上中下之分,但在某些问题的认识上却的确存在着上中下之分的,连先贤都说“中人以上,可以言上。”,“下士笑道,不笑不足以为道”,你又何必给自己这么高的期许,非要对下人言上呢。这往保守里说是“不患人之不己知”,往开了说就是“患不知人也”。
这不是——至少首先不是——一个智力问题,这是一个立场的问题,是人生观、世界观的问题。
这种思路和分析非常有价值,好像原书里第一章就讲:概率论不过是人类思维推理的数字化。
不过真是难为你了。
好像因此很难达到概率论所要求的条件。不过我还真没见过用这个贝叶斯推理来研究历史的,我觉得多数搞历史的也搞不了这个东西,也许以后会改进吧。当然我不是搞历史的,也许小看了搞历史的。花,等您的下文。
文理分科之后,文科生往往被理科生鄙视,称为科盲。
各方都能引用毛主席语录来支持自己的论点。
也就是说毛泽东的话可以被引用来攻击毛泽东的话。
不过有时屁股决定脑袋。
你的意思是, 揣测心理动机实际上是个贝叶斯分析过程, 工作相当相当巨大, 言下之意是难度过高, 方法不对头. 可是你又说高水平的历史学家也大致是这个过程. 那么这样一来你所反对的诛心之论居然和严谨的历史研究在方法上所见略同. 不明白, 你到底是想说现代史研究注定没什么结果呢, 还是说琢磨内心世界其实大有可为?
而且说实话, 我觉得给历史学家讲这些东西未必有新意, 相当于换了一种语言. 历史学本来就是一门寻找证据, 用证据说话的学科, 分析证据的时候所用到的知识背景, 就是先验概率, 有时候证据太多还会互相冲突, 那么不光有推断还有决策过程, 这时候就看权重, 类似于哪条证据更加合理可靠. 甚至还可以更加引申下去, 最好的结论是那种所有证据都指向一点, 换句话说就是任给概率测度下命题都成立; 其次, 就是忽略某些过于荒谬不合理的材料, 剩下的能保持一致, 这相当于去除离群点(outlier)或者说在测度相差小于某种程度的情况下命题成立...诸如此类还可以有更多, 欢迎专业人士补充...