主题:【原创】《十九大报告》之数据挖掘解读(1) -- 奔波儿
注:本文主要做技术上的文本分析,恕不参与政治讨论。
收集了17、18和19大的三次讲话,前两次是胡锦涛,这次是习近平。然后利用"搜狗"的一个分词字典,用python对讲话进行词语分解,并做了进一步分析。
除掉开头的套话“同志们:现在,我代表第十八届中央委员会向大会作报告。”以及标点符号后,这三次讲话的字数分别为25499, 26086和29166字,有越扯越长的趋势,10年之间,增长了14.4%。考虑到俺们的GDP增长率远远大于这一数字,暂时可以忍受。
再除去“的”、“和”与“是”这三个频率最高的单字以后,出现最多的前六个词汇分别为
十九大 : 发展(141), 人民(133),坚持(113),党(107),建设(97),中国(76)
十八大: 发展(157), 人民(92),建设(82),中国特色社会主义(79),坚持(78),党(74)
十七大 : 发展(181), 人民(90),建设(83),加强(73),党(68),坚持(66)(注:“完善”也是66次,并列第六)
从这上面可以看出,“发展”一直是国家的头等大事,“人民”作为国家的根本,也被反复念叨,而“党”作为一个单独字出现的频率越来越高。
如果统计一下所有含有“党”的词汇,再对比一下含“民主”二字的词语,然后各列一下排名前五的词语。
十九大 : 338 vs. 60
党(107),全党(33),我们党(27),党内(17),党和国家(14)
民主(34),社会主义民主政治(9),民主制度(3),社会主义民主(2),民主集中制(2)
十八大: 233 vs. 68
党(74),全党(21),党员(15),共产党人(6),党和国家(6)
民主(35),党内民主(6),民主制度(5),社会主义民主政治(4),民主权利(4)
十七大: 234 vs. 67
党(68),全党(20),党员(20),我们党(11),党和国家(7)
民主(29),社会主义民主政治(10),党内民主(5),民主权利(4),民主党派(3)
对比这三组数据,可以看出,“民主”一直处于尴尬的地位,至少相对于“党”而言,属于配角地位。但考虑到这是“党的”会议,也可以理解。另外,“党”字的出现次数大幅度提高,说明“加强党的领导”这种说法不是空穴来风。是喜?是忧?静观其变吧。
- 相关回复 上下关系8
🙂【原创】《十九大报告》之数据挖掘解读(1)
🙂【原创】《十九大报告》之数据挖掘解读(6) 18 奔波儿 字1982 2017-10-26 19:15:56
🙂text mining分析对比历次报告还是很有意思的。 毕玄 字48 2017-10-26 11:32:39
🙂最后一篇分析 奔波儿 字21 2017-10-26 12:42:36
🙂【原创】《十九大报告》之数据挖掘解读(5) 10 奔波儿 字2955 2017-10-26 09:17:44
🙂有意思,角度独特 啃书的米虫 字0 2017-10-26 01:17:39
🙂【原创】《十九大报告》之数据挖掘解读(4) 5 奔波儿 字3617 2017-10-24 19:16:41
🙂【原创】《十九大报告》之数据挖掘解读(3) 25 奔波儿 字2460 2017-10-21 08:58:33