290003810 发表于 2023-3-30 11:11:31

预测大选结果:推特大数据比民调更有效

  Ceron等人(2015)利用Hopkins and King提出的监督文本情感分析法对海量推特数据进行分析,不仅可以实时观测大选选情的变化,还可以预测最终的选举结果,并且观测实时性和预测准确性均优于传统的民调方法和其他非监督的文本分析方法。
  最近几年,社交媒体在现实中的作用日益凸显。社交媒体可以被用来组织和动员大规模的运动,社交媒体上甚至还形成了一些全派。当然,社交媒体对于最大的作用还是在于的表达上,而这为研究者提供了观测、观测重大事件走向的机会。
  我们知道,传统的预测大选支持率以及投票结果的方法是民调。进入大数据时代以后,研究者们希望通过更多样的数据来源来补充传统民调的结论,于是社交媒体就进入了他们的视野。利用社交媒体上的数据来观测大选结果有许多优势,比如低成本、高效率以及能够进行实时动态观测。
  以往利用社交媒体进行选举预测的方法还比较简单,很多研究者仅仅是通过统计社交媒体中某一候选人被提到的次数、有关推文的数量、粉丝的数量或者点赞数量来预测不同候选人的支持率。在有些情况下,这种预测也是有效的,但这种方法无法考虑到日常对话中各种复杂的语境,比如讽刺、双关、幽默,还极易受到无关信息的误导,因此在大部分时候其对选举的预测结果尚不够准确。
  如今的新方法在智能上已经有了重大飞跃。本文作者(Ceron, Curini, and Lacus)提出,利用Hopkins和Kings(2010)提出的方法,可以很好地把握社交媒体文本中丰富多变的语境,极大地提高预测结果的准确性。他利用这一方法分析了两个截然不同的选举场景:2012美国大选与2012年11月的意大利中左翼联盟选举的第一轮及第二轮。前者是对国家元首的选举,是二选一;后者是对政党领袖的选举,有较为灵活的多个候选人。
  本研究的数据来自推特平台。获取数据之后,作者接下来就要应用Hopkins和Kings提出的方法对其进行分析,这一方法具有两个优势。
  第一,Hopkins and Kings方法中的文本情感分析部分采用的是监督学习方法,对文本内容的把握上优于传统的情感分析方法。传统的情感分析方法往往事先建立一个情感关键词的字典,随后统计待分析文本中这些关键词出现的数量,依次推断待分析文本的情感趋向,进而推断大选中对不同候选人的支持率。这种方法好处在于可以纯自动地完成文本分析,而缺点则是无法把握各种复杂多变的语境。而HK方法作为一个监督学习方法,需要先用人工的方式将一部分社交网络文本的情感趋向或选举偏好进行编码,随后借助这一人工编码的训练集训练模型,使用训练模型预测未经编码的数据,并得到最终的结果。人工分类的好处具有更高的准确率,并且可以更好地排除困扰机器分类的垃圾信息。因为一条推文中每一个词(而不仅是少数关键词)都可能与这条推文整体的情感趋向有关,所以在对训练集中的每条推文都进行了人工的情感分类之后,每一个词汇在推文中的出现与整条推文的情感倾向之间会存在统计规律。
  在进行分析前,研究者需要先将每一条推文转化成向量形式,向量的每个维度由推文中的单词所组成,该向量被称为一个word profile。所有的word profiles用S代表,推文的全部情感倾向用D代表,D的概率P(D)表示每一种情感趋向的概率,是预测的目标,在本研究中是需要预测的大选中每一个候选人的支持率。对情感倾向的概率P(D)的预测全过程可以概括为以下这个公式:
  其中,P(S)代表一个列表,包含了所有word profiles在全部文本中的出现概率;P(DS)是一个矩阵,其中的每一项是,表示任何一条推文属于任何一种情感倾向或者说支持任何一位候选人的概率,可以用常用的机器学习方法从训练集的中估算出来。P(S)与P(DS)相乘之后得到的是每一条推文word profile的情感倾向概率,将他们汇总起来就得到了要求的全部推文的情感倾向。在这个汇总的过程中,原先对每一条推文的情感倾向估计的误差也会被叠加起来(达到15–20%的水平),这一误差对预测大选结果来说是无法接受的。HK方法对这一缺陷进行了优化,从而构成了HK方法在分析社交文本时的第二个优势。
  HK方法将对每一条推文进行分类再加总结果的方法优化为直接根据待分析推文全体的特性推断其整体的情感倾向。具体而言,先将P(D)=P(DS)P(S)这个公式倒转过来得到P(S)=P(SD)P(D),P(SD)代表当推文整体的情感倾向给定时这些推文中一般会出现的语句的组成,这可以通过从人工编码的训练集中估计出来。鉴于P(D)才是我们要求的,需要再求出P(SD)的逆矩阵,然后。这种方法能够将误差降到2–3%。整个监督学习方法的关键是训练集必须和全部文本集具有同质性,这样从训练集中得出的P(SD)才可以推广到全部文本集。虽然需要用到人工编码,但与传统统计方法不同的是这种方法中的训练集不需要有样本的代表性。
  Ceron等人(2015)首先将可以被认为是给某个候选人“投了一票”的推文筛选出来,这些筛选标准包括是否有明确表态支持某个候选人,或者在表态反对一个候选人时hashtag了另一个候选人等等。总之,筛选标准的原则是发文者要在表态上投入了足够的“成本”,表态才有分量。
  第一个研究对象是美国大选。在2012年9月28日到11月6日间,本文作者对推特上关于四位候选人奥巴马、罗姆尼、自由党的约翰森和绿党的stein的推文进行了实时观测,每天观测不少于一百万条推文,并且将当天的推文与前后各三天共七天的文本合并起来进行分析计算,得出每位候选人的支持率的预测值。这张图上绘出了主要两党的候选人支持率预测值的变化。
  从上图可以看出,在大选过程中的一系列热点事件后(比如三次辩论和一些丑闻爆料),两党候选人的支持率会出现极大的变化。这是传统的民调结果所无法体现的,因为民调需要一定的时间,民调结果往往会有几天的延迟性,而基于推文的大数据分析则可以更加实时地监测选民的变化。然而,在选举结果最终揭晓之前,没有人能知道监测的准确性如何,那当选举结果最终揭晓后利用HK方法预测的选举结果准确性如何呢?
  以几个最为重要的摇摆州为例,上表列出了分别采用HK方法和传统民调的选举预测结果以及真实的投票结果。比较分析可知,虽然仅分析了推特数据,但HK方法的预测结果已经与真实结果十分接近,并且在大部分情况下比传统民调的预测结果更为准确。
  对意大利中左翼联盟的初选结果预测进一步验证了HK方法的有效性。意大利中左翼联盟的初选选举环境要比美国大选的复杂,更多的候选人以及候选人之间更相近的意识形态造成了选民选择的模糊性以及低投票率,而意大利的社交媒体的普及率也明显低于美国。Ceron等人分析了在10月6号到11月25号之间发布的50万条文本,并在10个时间节点每次对5万条推文进行分析计算,得到五位候选人的支持率变化(见下图)。与美国的情况类似,对推特文本的分析允许研究者对选举态势进行实时监测,并且该方法对最终选举结果的预测准确性与传统民调不相上下,但高于的推文分析方法。
  以上两个探索性分析表明,HK监督学习方法具有实时监测选情变化以及提前预测投票结果的能力。然而,还有一系列影响这种方法有效性的问题尚未解决。首先,推特乃至所有社交网络用户在选民总体之中的代表性有待考究。之前的研究结果往往认为社交网络用户受教育程度更高、更可能居住在城市、上更活跃,这影响了社交网络用户在全体选民之中的代表性。其次,不同的倾向在社交网络上的分布也不一定能代表其在所有选民中的分布,以往的研究发现左翼群体在社交网络上更加活跃。解决这些问题的一个可行方法是研究清楚社交网络用户的特征,并对不同的观点倾向赋予合适的权重,比如适当降低左翼观点的权重。这就需要对社交网络用户的特征进行更加深入的研究。
  不过,在另一种情况下,社交网络用户的代表性对研究来说可能也不那么重要。如果社交网络不仅仅是其自身用户的反映载体,而是一个发挥更广泛作用的生产机制,或者是一个灵敏的更广泛的汇总系统,那社交网络中的与整体选民的之间就不是一个简单的部分与整体关系了。深入发掘社交网络在整个社会中的作用可能还能发现许多非常引人入胜的结果,因此还需要将来的研究者们对这些问题进行更深入的研究。
页: [1]
查看完整版本: 预测大选结果:推特大数据比民调更有效