主题:【原创】对2018年两会文本的大数据分析 -- 林容小号
------------写在前面的分割线-------------
首先这篇文章的灵感来自河里某大神关于十九大文本的大数据分析,当时对于这种分析方法很感兴趣,自己用matlab、spss、分词工具等也对2018年两会报告文本作了一下分析,仅供大家看个新鲜,更深入的分析就搞不动了。其实这种分析方法用来分析文本是很勉强的,但至少词云图是准的:),下面开始正文。
------------写在前面的分割线-------------
2018年两会闭幕好久了,这次大会是新时代的重要会议,笔者试着用大数据分析方法对2018年工作报告文本做了初步分析。十年不写代码,感觉有点提不动刀了,这项工作比我想的要复杂,仅计算工具就用了四五种,还要现学一堆计算方法,好歹在亲友团的帮助下,折腾一个月把这篇分析报告做好,这篇文字灵感来自西西河某大牛(我至今不会用河里的搜索功能),我这里附个骥尾。
一、工作重点
2018年工作报告(新华社授权公布版)共计2万余字,通过选取并构造分词词典,统计出其中前五位的热词为发展(143)、改革(92)、经济(72)、推进(69)、创新(59)。这个分词字典其实挺重要的,我毕业论文就是做的这个课题,不同的分词字典对于文本的分析是不一样的。好吧,接着往下说。
通过与2013年和2008年等重要年份的的工作报告对比,形成以下表格:
观察这几年报告的前三位词语的排名,做个不负责任分析:
1.“发展”这个词在三份报告中一直高居首位,可见发展始终是国家的头等大事。
2.2008年工作报告的第二热词是“建设”,这与2008年前后中国举办奥运会和全国基础建设的热潮相吻合。
3.2013年工作报告的第二热词是“经济”,2013年前后国家主要工作是应对国际金融危机和转变经济发展方式,然而世易时移,在2018年工作报告中“转变经济发展方式”的提法已经不再出现。
4.2018年,“改革”成为发展以外的第一要务,“创新”第一次出现在政府工作报告的热词前五名之内。
结合上面表格和热词对标可以看出,高质量的发展和供给侧结构性改革是今后国家工作的重点和主线(其实无论怎么分析,都是这个结论)。
二、2018年工作报告词云
搞大数据分析哪能没词云呢,这种制作工具开源的很多,选了一种对2018年工作报告排名靠前的词语进行统计分析,对关键词进行突出处理,就形成了下面的词云,笔者没什么好分析了,大家看图吧。
三、侧重分析
这一部分目的是通过与2008年和2013年工作报告相比较,研究2018年工作报告行文用词倾向,观察国家工作的侧重方向的变化情况。下面这一波操作比较烧脑,河里大牛当时没说实现方法,我这里再详细说两句,请大家谨慎阅读,或者直接跳过。
先科普一下主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际研究中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。(以上来自度娘,大家看看就好,不影响下面的阅读)。
其实这个工具用在文本分析上应用不是很广,我这里是强行套用。
继续讲一下大数据分析操作:
步骤1:先选出三份报告中前20个关键热词;
步骤2:然后统计这些词语在三个年份工作报告文本中所占的百分比,这就形成了一个3X20的数据矩阵,每一行代表该份报告在一个20维空间中的坐标;
步骤3:然后开始做主成分分析,对3个20维向量做降维处理。
步骤4:最后,将各个热词所代表的坐标轴,以及三份报告的位置投影到第一主成分(PC1)和第二主成分(PC2)的平面上。形成主成分分析图如下:
观察上图可以看出(依旧是不大靠谱的分析):
1.三份报告的投影间距较大,表明这3个年份报告行文用词有各自的侧重。
2.2008年报告周围是“完善”“加强”“人民”“制度”和“建设”等词语。2013年报告则贴近“经济”“政策”和“实施”三个词。
3.就2018年工作报告来说,2018年报告最贴近“创新”,在其周围是全面深化改革的“全面”和“改革”。
好吧,对于报告文本的粗浅分析完毕,分析方法和结果仅供参考,我只管实现技术方案,不保证结论准确,大家看看就好:)
制度从第六跌到第九,然后就跌出了排行榜
教育少少的看到了,医疗就没有看到。
大数据?还用matlab、spss?
你这只是对单篇或几篇文章的“文本分析”。毕竟,几篇文章加在一起,不过区区几万字而已,就算字字珠玑,这样规模的“数据”和“大”数据也差着数量级。
我这个文是给公司写的,开始叫做数据分析,后来好多人都问什么是数据分析。。。我只好用大数据,省得解释半天。
国内it届喜欢滥用名词的毛病久了
已经无药可救了
分词,情感分析,主成分分析都是NLP的概念,与大数据无关