财新传媒
位置:博客 > 韩松 > 大数据用于政治分析

大数据用于政治分析

新华社8月底发表过一篇报道,它说的是,中国搜索对《邓小平文选(第三卷)》和《习近平总书记系列重要讲话读本》进行词频统计发现,两个文集的前20个高频词中有12个相同。

这12个相同的高频词分别是:发展、党、改革、人民、建设、国家、社会主义、中国、制度、经济、政治、领导。

大数据用于政治分析

其实,不相同的词,或许更受关注。新华社的报道没有讲“开放”是否是一个高频词,但它提到,《文选》中的“香港”“资本主义”“日本”“美国”“台湾”“外国”等高频词在《读本》中不再频频出现,有的只提到一两次,甚至消失。

报道说,“香港”“台湾”“资本主义”等词由于“一国两制”而成为当时的热词。同时, “资本主义”还频繁出现在“到底走社会主义还是资本主义道路”“市场经济与资本主义的关系”等话题中。“日本”“美国”“外国”则多用于讨论中国如何对外开放、发展经济当中。

对于为什么会这样,报道没有详细的解释。但这是很有意思的。那么,用这种办法把《环球时报》的社论拿来对比分析,会出现什么结果呢?

或者,把七常委的讲话,把所有省委书记的讲话,都拿来分析,再综合对比判断呢?这样会勾勒出一副什么样的政治画幅?

其实,香港的媒体研究者比较早就在使用词频方法研究中国政治生态了。现在,是大陆媒体。值得注意的是中国搜索的背景:它由中国搜索信息科技股份有限公司创办运营,该公司是由中国七大新闻机构人民日报社、新华通讯社、中央电视台、光明日报社、经济日报社、中国日报社、中国新闻社联合设立的互联网企业,于2013年10月开始筹建,2014年3月21日正式上线。

这说明,用大数据对政治活动进行分析和管理,可能会渐渐成为一种常态。

这在商业上,也是很有市场的。比如,成千上万的官员们需要对上级使用的高频词,用大数据工具先进行一番精准分析,再决定自己该说什么话。至少,不要领导强调“改革”时,你老在说“科幻”。

这样就会开发出与此相关的一系列产品,甚至可以把软件装在手机上。很多媒体苦于无法顺利向新媒体转型,这里就是一个思路。

当然,这还仅仅是十分初步的。它的科幻意义其实是更大的。大家都可以脑洞一下。

推荐 9