政治选举和产品营销本质上没有什么区别,两者都是通过各种营销手段, 把候选人最终“卖给”选民的过程。因此,随着社会化网络和大数据分析与营销的进一步融合,美国总统大选已经演变成了一场基于大数据分析的精准营销大对决(2012年奥巴马竞选团队的数据科学家数量比上次竞选增长了五倍)。在“数据科学家如何帮助奥巴马TKO罗姆尼”一文中,我们揭示了奥巴马竞选团队的获胜密码——社会化分析+个性化精准营销,但其中的战术细节、使用的新工具、新方法等“微创新”依然鲜为人知。
最近,MIT科技评论的一篇深度报道详细复盘了美国大选中的数据分析战。 文中的观点和信息虽然在我国的选举中用处不大,但 对企业营销人士来说还是很有借鉴意义——正如哈佛商业评论所言:数据驱动的决策可以让管理者不再依赖直觉。你只需要将总统替换成“某品牌牛奶”,将选民替换成“消费者”,就可以将美国总统大选作为结合大数据分析的精准营销案例进行解读。 以下将该报道为大家编译整理如下:
2010年, 在奥巴马入主白宫后的两年后, 民主党在中期选举中惨败。 民主党在国会中的优势, 保证了奥巴马的金融改革和医疗改革的顺利进行。而在2010年中期选举后, 民主党在众议院的席位的优势地位被共和党取代。 在参议院中, 也仅仅以微弱优势勉强保住席位优势。如果说中期选举是奥巴马及民主党全国委员会的期中考试的话, 很明显,这个成绩是 “不及格”。
“不及格”也不一定完全是坏事。 至少 Dan Wagner是这么认为的。 这位数据分析的专家在2009年就被民主党全国委员会任命为总监, 负责收集和分析选民信息,以帮助民主党选举团队以电话和直邮方式进行选举宣传。 Dan Wagner把收集来的选民信息输入他的统计模型, 生成了一系列关于选民态度和偏好的分析报告。他要求民主党的技术部门的工程师们据此开发出了一套软件。 他把这套软件叫做“Survey Manager”。#p#
预测结果误差不到2.5%
这一年秋天, 在纽约州国会议院的特别选举中, 早在选举日之前很多天, Dan Wagner的Survey Manager就预测出的正确的选举结果,而预测选票与实际结果的票数差不到150张选票。 一个月以后, 由于马萨诸塞州的爱德华 肯尼迪参议员的去世, 马萨诸塞州也举行了国会特别选举来填补肯尼迪参议员的空位。在这场选战中, 人们普遍认为民主党候选人Martha Coakley将毫无疑问在这个传统的民主党大本营的州获胜。而Dan Wagner的Survey Manager则正确地预测出了共和党候选人Scott Brown将最终获胜。这些预测引起了民主党全国委员会的重视。 奥巴马全国竞选阵营的副总监Jeremy Bird说:“当你正确预测我们能赢是一回事,而当你能正确预测我们会输, 就是另一回事了。”
而这个“另一回事”, 是在“会输”的5个月前就做出的预测。 从6月份开始, Dan Wager就建立模型, 对国会选举的74个选区的部分参议员选举结果进行预测。 而这些预测的结果“令人难以置信”的准确。 Dan Wager并没有采取传统的抽样分析的方式, 而是一个一个选民进行统计。 他最初预计到民主党将会在中期选举中有麻烦来自于几千个民主党的调查电话的反馈结果与民主党的选民数据库的比对。 根据调查电话的反馈。 那些民主党的铁杆选民表示将要去投票的比例,要大大低于概率统计所预计的比例。 而Wager能够准确地衡量出民主党每次的竞选宣传活动所能提升的选民支持率。 从这些分析, Wagner认为, 民主党的宣传活动所能去的的效果, 不足以弥补与共和党在支持率上的差距。
他的预测与最终结果的差距平均不到2.5%。 “这让很多不明白这些预测背后的数学模型的人,也理解了这些数学模型能产生的价值”。 奥巴马竞选阵营的总监Mitch Steward补充道:“自从国会特别选举结束后,他的预测在民主党就成了金科玉律了。”#p#
颠覆传统调查方法
Dan Wagner的成就, 远远不止在选举前几个月预测出选举结果这么简单。 Wagner和他的数据分析师团队改变了20世纪以来一直沿用的公众调查方法。
传统的调查, 通过对人群分类, 对每类人群选取一部分样本, 以样本来代表这类人群。而Dan Wagner和他的团队, 则是针对每一个个体选民进行统计, 他们的预测是基于每个个体选民的偏好做出的。他的技术给公众调查提供了新的思路。 公众调查的人群可以不再是以简单的区域政治区分或者像传统的政治宣传或者商业宣传的用户细分一样采用传统的人群特征 如年龄, 性别等进行分类。而是可以针对每一个个体选民的特征的综合。 候选人可以根据这些个体选民的情况, 进行针对到每个人的个性化宣传。
照片:Dan Wagner, 奥巴马2012年竞选团队首席分析师(长的有点像比尔 盖茨)
在奥巴马的2012年的选举胜利, 要归功于他的那只强大的技术团队。这个团队, 使得奥巴马的支持选民可以轻松地通过网站, 社会化媒体, 以及移动设备来参加到奥巴马的竞选过程中。 他们设计的移动APP,可以使奥巴马的助选人员直接打印宣传材料, 而亲自不必跑到每个竞选办公室去; 他们设计了一个网站, 采用游戏积分墙形式的Dashboard,显示在筹款活动中捐款者的排名; 他们还设计了一款叫做“target sharing”的挖掘工具, 帮助每一个奥巴马支持者从自己的Facebook好友中, 找出那些合适的宣传对象。
在这一切的背后, 是一套对选民的评分系统。 这套评分体系可以针对每个选民进行预测。 使得每次竞选时,不但可以知道某个用户是谁, 还可以知道如何才能去影响用户。#p#
选民的评分系统
4年前, 24岁的Dan Wagner在芝加哥的一个咨询公司里做分析师,他采用芝加哥大学研究的软件进行计量经济学方面的分析。 当他知道伊利诺伊州参议员奥巴马决定竞选美国总统时, 他决定应该为他的老乡做些支持。 于是, 他加入了奥巴马的竞选团队。他的工作从选民数据输入开始, 随着奥巴马竞选的展开, 他对选民数据采集以及利用统计模型分析选民数据越来越熟悉。 很快, 他被任命为大湖/俄亥俄河谷地区的首席用户分析。 这一地区一直是美国总统选举争夺最激烈的地区。
随着奥巴马2008年的胜利, 他的高级幕僚们大多数都去了华盛顿去准备政府工作。而Dan Wagner则留在竟选总结小组, 对竞选中的技术环节进行总结, 找出不足。
在2008年的竞选中, 奥巴马的团队的分析师们创造出了一套评分体系。它给每一个选民进行两类评分, 一个用来评估用户参与投票的可能性, 一个用来评估用户支持奥巴马的可能性。 这些评分的基础来自于大量的调查。 在每一个争夺激烈的州,奥巴马的呼叫中心每周会进行5000到10000个短调查用来衡量用户的支持偏好,还会向传统社会调查那样进行1000个左右的更深入的调查。 根据选民登记信息, 消费者数据库, 选民过去投票情况,再结合这些数据, 分析师们建立了一个预测每个个体选民的支持偏好的算法。
这套系统的价值非同小可。 它可以形成一个针对性宣传的闭环。 它可以指导志愿者去敲哪些选民的门或者打哪些选民的电话,而通过志愿者与这些选民的交谈记录的反馈回服务器, 算法模型可以指导志愿者是否应该去敲下一家的门。 这种模型的效率和规模性使得民主党在对选民分析中占得先机。 当时共和党候选人麦凯恩的分析团队,只能根据选民的数据进行根据统计模型一次性静态的分析, 无法在选举过程中根据不是事件作动态的分析。 而奥巴马的团队, 则可以根据实时的反馈数据, 每周做出动态分析。比如麦凯恩指定阿拉斯加州的女州长佩林做副总统竞选人, 或者雷曼兄弟倒闭 这样的事件, 对选民支持率的影响等等。
不过, 奥巴马的团队的数据架构也是有缺陷的。 那就是是选民的信息数据与竞选过程中与选民互动的数据是相互孤立的。主要的原因由于这些系统是由不同的公司开发的。 而他们并没有必要把这些不同的系统统一起来。
竞选总结小组认为, 在下一次竞选的时候, 这样的情况需要得到改善。 它提出的报告, 建议民主党建立一套“选民关系管理系统”,可以使在整个竞选团队成员, 对目标人群不是简单的按照投票人, 志愿者, 捐款者或者网站用户来看, 而是把他们不同方面的信息整合起来, 做为一个“公民“来全面衡量。 “我们意识到我们的数据架构在不同竞选团队之间的数据共享和整合方面有问题。 我们应该整合数据, 提供选民的全面信息。” 总结小组的数据库应用开发工程师Chris Wegrzyn 这样说道。
Chris Wegrzyn是民主党全国委员会的首席分析程序员。他负责一系列系统和软件的采购, 这些采购的目的, 就是使竞选团队能够摆脱对单个供应商的依赖, 按照自己的需求搭建系统。 为此, 民主党安装了一套西门子的企业级电话呼叫系统,可以每天进行120万次电话外呼来进行选民调查。 此外, 他们还购买了价值28万美元的HP的Verica软件, 使得他们不但可以访问民主党自己的1亿8千万选民数据库, 还可以获得所有通过网络与奥巴马竞选团队有交流的选民,志愿者或者捐款者的信息。
2008年后去华盛顿的团队成员, 在2011年第二任竞选时大多数又回到了芝加哥继续工作。经历了2010年中期选举的惨败后, 他们对Dan Wagner的分析到原子级的模型倍加欣赏。作为第二任选举, 他们要做的事情很简单, 那就是, 让那些2008年投给奥巴马的选民继续投给奥巴马。 为此, 他们需要成功的动员选民投票,同时吸引新选民来弥补一些不投给奥巴马的老选民的空缺。
在2012年选举年开始的时候, 奥巴马团队已经拥有所有2008年投票给他的69,456,897名选民的姓名。 选民在投票时可以采用匿名投票, 不过, 奥巴马团队的分析师们可以通过在各选区的民主党的统计, 分析出那些投票给奥巴马的选民的姓名。 有分析人士在电视上只是抽象地说奥巴马的2012年选举是“重塑08年的支持者阵营”。 而在奥巴马竞选团队里, 他们真的是在一个选民接一个选民的“重塑”08年的支持者阵营。#p#
实验
当Jim Messina被任命为奥巴马竞选团队的主管后, 他给下属定了这样一条规定“任何决定都必须以量化的数据为基础”。 不过, 这与2008年奥巴马第一次竞选时人们常常提到的“以数据为导向”的方式还是有所不同的。 当时奥巴马的竞选团队主管David Plouffe, 就致力于以“选举工程学”的方式, 挑战执政的共和党。 他热衷于各类指标, 表格以及报告。 Pouffe想要了解的问题包括”上周末某个地区竞选办公室的志愿者是如何安排的”以及“某次筹款活动具体筹到的款项是多少”这样的问题。
尽管2008年的竞选中对数据的依赖性很高, 08年的竞选并没有采用21世纪政治中最重要的创新方法。 1998年, 耶鲁大学的Don Green 和Alan Gerber进行了政治学上第一次的随机控制性实验。 他们通过对纽黑文选民随机地通过邮件, 电话或者拜访的形式进行投票动员。 然后统计何种方式能够达到最大的效果。 这掀起了一股实验性的热潮 Don Green, Alan Gerber及随后的其他研究者对于投票动员, 面谈以及不同竞选口号进行研究, 以确定不同方式的不同效果。
在2008年竞选中, 奥巴马团队采纳了这些研究中的一些研究成果来帮助修改宣传文案或者是谈话脚本,但是从方法论上采用这种实验式的方式。 从Dan Wagner开始, 民主党决定进行他们自己的实验。 Dan Wagner说:“我希望全国委员会成为民主党的研究的主要推动力量。”
为此, 他聘请了华盛顿的研究机构Analyst Institute 来协调各种不同的实验性研究。 其中很多的研究是关于选民注册这个方面的, 因为这个方面最容易进行量化衡量。其中一个研究发现,选民注册不需要仅仅是被动等待,也就是说, 竞选组织者不必只是坐等未注册选民上门, 领取注册表格, 然后等他们投票。 通过新技术, 可以分析所有适龄的居民, 比对选民注册数据, 找出未注册的选民。通过一些商业数据库, 可以得到选民的家庭地址。 而通过定向模型可以判断出该选民是民主党还是共和党支持者, 竞选团队可以据此给选民寄送选民注册资料。
民主党的竞选团队还包括了来自Analyst Institute的社会学家。 团队知道吸引更多的民主党支持者去投票是2012年选举成功的关键。不过竞选团队的计划, 可不是仅仅地让那些未注册的支持者去注册投票那么简单, 他们野心勃勃地想挑战现代政治里最困难的部分, 那就是, 改变人们的支持倾向。
随着数据能够详细到个人, 这样的改变倾向的实验变得可行了。 通常这类的实验可以计算出实验对于整个人群的态度改变的效果。而现在则可以衡量到每个个体选民被某次宣传所改变的程度。 从2006年开始, 已经有研究表明这样类似的可控性实验的可行性了。实验用直邮方式宣传某个民主党州长候选人, 发现这种方式对那些完全党派中立的选民的影响, 反而要远远小于那些轻微亲共和党的选民。
这个研究以及其他一系列后续研究, 揭示了传统的针对性宣传的局限性。 这些宣传基于一些人们长期以来认定的假设,例如 中间派的选民最容易被说服, 但是这些实验提出了另外一些不确定性因素。 那些50%可能性投票给民主党或者共和党的人,可能是因为两党都在争取而变得犹豫不决。 也可能仅仅是因为他的数据缺失而导致两党都没有关注他。 Chris Wyant在2008年是奥巴马竞选团队的地面组织者, 现在则是2012年团队在俄亥俄州竞选的总监, 他说:“其实我们对那些50%可能性投票的选民的了解最少, 我们对能够说服他们都没把握。”
竞选团队用来发现那些最可能投票的选民的方式, 被Analyst Institute称为“实验性项目”(Experiment-Informed-Program, EIP)用来测试不同的宣传口号或文案对于影响公众支持率的有效程度。
传统的方式, 一般是采用Focus Group 的形式,通过小组的投票, 确定那类语言表述最合适。 这样做的缺点就是结论可能会因为Focus Group的设置或者样本过小而不够准确甚至歪曲。 Mitch Stewart说:
“这听起来挺不可思议的, 一个全国性的宣传, 决策却基于一个160人的样本? 而人们在过去几十年居然一直是这样做的!”
而EIP则是利用传统的形式, 先确定一系列宣传表述,然后在拿到实际场景中进行实验。比如说, 就奥巴马的某个相同政策, 实验人员会有4类不同的宣传表述,实验人员会通过直邮, 随机地给实验选民某个宣传表述。然后通过跟进的电话调查, 来确定各个表述对选民支持度的改变的效果。
2012年3月, 竞选团队测试了不同宣传表述对奥巴马医疗政策的效果。 一类表述主要阐述了奥巴马的政策改革,另一类则重点宣传选民们能够得到更多免费体检等好处。 实验测试了不同特征(如年龄, 性别等)对不同宣传表述的反应。 特别是妇女, 比如, 老年妇女对关于政策中关于加强预防性提示的政策更加接受,而年轻妇女则对其中关于避孕的保险以及禁止保险公司向妇女多收保费等政策更加青睐。
在Paul Ryan被提名为共和党的副总统候选人之后,奥巴马竞选团队做了关于针对奥巴马医疗保险改革批评的EIP实验(编者: Paul Ryan在竞选中主要抨击的是奥巴马的医疗改革方案)。 当时, 对奥巴马医疗改革方案的反对声很大。 竞选团队的公关负责人Terry Walsh说:“我们从EIP中, 发现了一些赢得支持的机会, 这太令人兴奋了。 因为当时我们几乎听到的都是反对的声音。” 这样的发现, 是传统的社会调查所做不到的。这些传统的方式很难动态地发现人们观点的改变。 通过EIP, 竞选团队发现, 45岁到65岁的人群, 相比65岁以上的人群, 在听到奥巴马关于医疗保险改革的解释后, 更容易提高对奥巴马的支持程度。 而65岁以上的人群恰恰是奥巴马医疗改革的最大受益者。
在另外一个EIP实验中, 竞选团队发现,那些对奥巴马关于妇女同工同酬以及健康保护的观点赞同的人们, 主要是一些对奥巴马支持概率在20%到40%之间的人。 也就是说, 这些人基本赞同共和党的观点, 但是在妇女问题上与共和党观点不一致。 于是, 在竞选宣传时, 奥巴马专门就妇女问题单独进行了阐述。目的就是为了争取这部分选民的支持。 Terry Walsh说:“关于妇女问题的阐述的目的, 就是要把选票从罗姆尼手里夺过来。 如果我们就某个特定议题进行阐述, 我们有可能说服那些对奥巴马支持程度较低的选民转而支持奥巴马。”
此外, 奥巴马的竞选团队还利用EIP实验,展开了大规模的志愿者一对一劝说活动。 传统上的政治竞选, 通常都是通过大众媒体渠道来阐述自己的政治观点。 利用志愿者进行一对一劝说有很高的风险。 比如你可能不知道哪些选民能够被劝说。可能会在那里碰到竞争对手, 志愿者也不一定知道用什么样的语言去打动选民等等。 Jeremy Bird说:“如果用不好,这样做可能会有负面影响, 反而会影响候选人。”
从2012年2月开始, 奥巴马的志愿者们总共进行了50万次的一对一劝说。 在此之前, 竞选团队先是随机地进行电话访问,志愿者通过电话访谈记录, 确定出一对一劝说可能有效的选民组。“通过谈话, 你就会发现的确有些人比其他人更容易被改变。”Jeremy Bird说。 然后, 分析师们就对这些目标选民的可劝说程度, 根据选民的各种特征值, 进行评分, 从0到10, 来表明通过一次劝说, 该选民会转而支持奥巴马的可能性。 这个实验还让各地的竞选办公室教会志愿者如何去说服选民。 加州的志愿者就是一个例子。尽管加州不是一个竞选激烈的州, 志愿者利用电话劝说其他州的选民成为奥巴马支持者的转化率相当的高。
有了这些EIP实验, 奥巴马竞选的组织者就有充分的信心,他们派出了大量的志愿者对目标选民进行上门或者电话一对一劝说。
这些方式改变了政治竞选的模式。 不过所有这些都需要数据分析的背后支持。 Chris Wegrzyn开发了一个叫“AirWolf”的程序, 可以把那些用信件寄取选票的选民和他们的电子邮箱地址进行匹配。 奥巴马的各地竞选办公室会定期提醒选民寄出选票。 如果他们寄出了, 他们会收到感谢信。 而竞选办公室的工作人员每天都会有一份尚未寄出选票的选民的名单。 根据名单, 他们可以通过电话或者上门拜访的方式进行跟进。 Dan Wagner说:“这本质上是一种线上和线下相结合的方式。”
除了对各地竞选办公室的支持, 作为首席分析官, Dan Wagner的工作还包括对竞选总部的各部门的支持。 他有一个54人的分析师团队,在一间无窗户的办公室里办公(这里被他们形容成“山洞”)。 Dan Wagner把他的团队定位成为“内部咨询师团队”。他说:“我们基于我们的数据库,创造出一些工具, 同时,帮助各个部门更好的使用数据工具。”#p#
共和党阵营
当看到奥巴马阵营在招聘文本分析, 在线广告以及在线实验的人员时, 罗姆尼的顾问们感到的是担心和困惑。在共和党的党内初选时, 罗姆尼好像是唯一一个会进行21世纪竞选活动的共和党候选人。 他有条不紊的竞选安排, 很轻松地成为共和党的候选人。
尽管在共和党内优势明显, 罗姆尼的团队在专业性上与奥巴马团队相去甚远。
在2002年竞选马萨诸塞州州长时, 罗姆尼聘请了一家总部在弗吉尼亚的公司——TargetPoint。 该公司利用商业消费者数据库和选民数据库, 建立预测模型。 TargetPoint的CEO Alexander Gage是最早将商业营销的理念引入政治竞选宣传的人之一。
这些数据分析技术帮助小布什在第二任竞选中在针对目标选民的宣传上取得较大优势。 然而, 在此之后,共和党并没有在这些技术方面进行进一步的加强。
民主党后来居上,到2006年, 民主党不但在采用商业营销技术方面追上了共和党,他们还把社会化媒体营销方法也整合了进来。
罗姆尼的幕僚们知道奥巴马正在建立一只内部的数据分析团队。 不过他们并不认为自己也有这个需要。罗姆尼的数字媒体总监 Zac Moffatt说:“我们不认为我们的内部团队会比从市场上找来的团队强。 我们的方式就是找到最好的公司, 与他们合作。”
因此, 罗姆尼的团队继续与TargetPoint合作。 TargetPoint帮助罗姆尼进行一次性的选民细分工作, 然后这些细分名单被分发到各地的竞选办公室。 而这种静态细分的模式,正是奥巴马在2008年选举后所摈弃的模式。
2012年5月 TargetPoint的副总裁Alex Lundry离开TargetPoint, 加入罗姆尼的团队, 来帮助创建罗姆尼的内部数据分析团队。他找来了芝加哥大学政治科学系的博士后Tom Wood, 以及布什2004年竞选团队的成员 Brent McGoldrick。 但是, 罗姆尼的数据分析团队的人数, 还不到奥巴马团队的十分之一。
罗姆尼的数据分析师们无法深入研究个体选民的情况。他们把目标集中在研究如何提高竞选广告的效果。
Lundry认为传统的电视广告衡量体系不能满足需要。于是, 他们创建了一种叫做“信息流”的方式。 他们把政治话题分解成“模块”。他们先划分了大约200个“模块” 比如关于汽车业失业的问题,奥巴马政府资助太阳能公司的问题等等。 当有新的政治话题产生以后, 他们就把它加为新的模块。 他们通过TargetPoint的“全国媒体监测”系统,来监测不同模块在各媒体上被提到的频度。 Lundry的团队关注每个模块的两个方面的表现:第一是被社交媒体的传播(特别是Twitter上的传播), 第二就是被传统媒体的覆盖程度。
Alex Lundry 创立了罗姆尼团队的数据分析团队,这个团队的规模还不到奥巴马团队的十分之一
Lundry团队的最终目标是要衡量不同的政治话题对罗姆尼支持率的影响。 他们采用了金融市场常用的向量自动回归模型来衡量“全国媒体监测”系统的数据与罗姆尼在盖洛普每日民调中的支持率的关系。在2012年7月, 他们发现了一个他们称为“Wood三角形”的流程。
当一个模块通过广告或者新闻方式进入公众讨论3 到4天 后。 可以通过跟踪在Twitter上的话题讨论, 如果发现话题成为了一些精英政治人物的讨论话题后,这些模块在1到2天后, 很大可能被纸媒, 广播或者电视所报道,从而会影响罗姆尼的支持率。 Lundry发现, 这样的规律是普遍存在的。
因此, Lundry的团队, 把广告看作是功能饮料。它的作用是挑起话题或者对原有话题进行保鲜。 如果某个模块的自身能量不足(不足以在精英阶层掀起足够的话题), Lundry会建议对这个话题进入公共话题讨论5到7天后, 投入广告进行刺激。 Lundry还发现, 这样的刺激的效果通常会在14天左右消失, 这时他会建议进行另一个话题的广告。
这些发现给共和党竞选团队的组织者一些信息流的理论, 但是它没法提供具体的如何进行资源分配的指导。因此, 共和党竞选团队只能去观察民主党的动作。 如果奥巴马团队在某个州或者某个地区加大力度, 估计那是一个很重要的地区, 也许罗姆尼也应该在那里加大力度。 Lundry说:“我们只能采用这样的被动策略, 他们(奥巴马那边)的人手比我们多太多了。”
于是, 共和党的竞选团队开始每周跟踪奥巴马团队的广告发布和奥巴马在不同地点的时间分配。目的是试图找到奥巴马团队在做资源分配决定背后的计算。 这有点像当初微软的Bing去反向工程Google搜索那样。 就像罗姆尼的政治顾问Dan Centinello说的那样:“我们随时关注总统的动向。”
但是, 奥巴马的媒体购买策略真的很难猜。 比如Lundry注意到,在9月上旬民主党大会结束后, 奥巴马在临近佛罗里达州边界的阿拉巴马州小镇Dothan投入了68个电视广告。 Dothan可以说是美国最小的媒体市场之一, 而阿拉巴马州则是绝对的共和党大本营。即便有媒体专家认为, 这是为了影响旁边的摇摆州佛罗里达州的选民。 但是Dothan的电视台能覆盖的佛罗里达选民也只有9000人。 而其中7000人在2008年大选中投给了共和党候选人麦凯恩。 “这是一个共和党占绝对优势的媒体市场”, Lundry说。 “而且市场又那么小, 但是他们偏偏在那里投广告。”
罗姆尼的顾问们都很熟悉大众传媒的理论, 但是奥巴马这样追逐小众选民的做法他们却无法去衡量。分析师McGoldrick说到:“我们知道, 一定是他们的算法指导他们去这么做的。”#p#
媒体争夺战
2011年夏天, Carol Davidsen收到了一封来自Dan Wagner的电子邮件。 作为民主党的支持者。 Carol经常会收到来自民主党的募捐邮件。不过这封邮件有所不同。 它提供了一份工作。 Dan Wagner从2008年以来的所有给民主党的捐款者中,找出他们职业中有“数据”或者“分析”关键字的人, 给他们发邮件邀请他们加入新成立的数据分析部门。
Carol当时在Navic Networks工作, 这是一家微软的子公司, 她负责编写软件记录用户使用机顶盒录制节目的历史数据。 接到了Dan Wagner的邀请后, 她决定接受这份工作。 于是, 她在2011年底, 成为奥巴马竞选团队技术部门的一名产品经理。 负责“NarWhal” 项目。 这是一个将不同数据库进行整合的项目。 通过Narwhal项目, 当发送邮件招募志愿者是, 可以参考他的捐款历史, 确定应该向支持者募捐多少款项的算法可以把他过去对募捐的反应情况作为变量来考虑。 这种整合技术可以强化了A/B测试的效果。 A/B测试是网站开发中经常使用的技术。 在奥巴马2008年网络募捐中起到很好的作用。 它主要通过随机地给不同的用户展示不同版本的设计来测试用户的反应。 有了Narwhal的数据库整合, 分析师们可以针对某个用户分析更多的属性, 从而优化宣传的手段。 “我们发现了很多可以拉近选民的手段, 如在总统生日卡片上签名, 或者得到一个免费的保险杠贴纸, 会比别的方式更加容易吸引选民。” 奥巴马团队的数据分析师Amelia Showalter说道。
如果说在线传播是奥巴马2008年竞选时,采用数据实验和分析方法最活跃的传播渠道的话(事实上, 随机发送邮件和A/B测试, 然后比较点击率或者捐款额对在线传播也比较容易),那么大众媒体传播是当时最少使用这些方法的渠道了。 电视和电台广告必须按照地域来购买。 而从尼尔森或者Scarborough这样的市场调查公司购买到的关于各频道用户观看情况的数据库里, 关于用户的数据也有如用户年龄和性别的简单信息。 这些信息对于那些做做鞋帽广告的厂商来说足够了。 但是对于政治广告的投放来说, 还是远远不够的。
作为竞选团队的媒体经理, Jim Messina需要投放约5亿美元的广告。 她希望能重新设计广告投放流程, 包括广播, 有线电视, 卫星电视以及网络上的投放。 Amy Gershkoff是竞选团队的媒体计划总监, 她说:“对广告主来说, 投放的渠道非常多。 对每一分钱的花费, 都有成千上万种选择。 我们的用户数据非常丰富。 但是和媒体数据的关联成了最大的挑战。”
2012年初, Dan Wagner就把媒体计划列入了数据分析部门的职责范围。 Wagner把这一职责定义为“为提高宣传和争取选民的有效性而进行的资源优化配置的研究与实践”。 通俗地说, 就是对每次宣传活动,都要计算出在给定接触时间, 给定成本下, 因此而赢得的选民数。
不过具体到传统媒体购买来说, 这样的计算几乎不可能。 因为竞选团队没办法把他们的选民数据库和有线电视公司的用户数据库关联起来。而奥巴马的幕僚们发现, 有线电视的用户数据常常会有误导。 Terry Walsh说:“我们并不关心一个35岁的妇女在看什么电视节目, 我们关心的是, 看那些节目的观众里面, 哪些是我们所能够去说服的选民。”
Carol Davidsen以前的工作就是和机顶盒的数据打交道, 她了解其实很多数据都是可以从机顶盒的原始数据中得到的。 而市场研究公司由于用户隐私的要求,会把用户个人这部分数据屏蔽掉, 重新包装进行销售。 “作为媒体购买来说, 最大的问题就是信息不够。” 她认为。
于是, 她开始和市场研究公司进行谈判, 找到一种既可以使市场研究公司避免违反与有线电视公司关于用户隐私的协议,又可以使竞选团队获得需要的数据的方式。 她们与一家叫Rentrak,的市场研究公司签订了一份价值35万美元的协议。 奥巴马的竞选团队提供选民列表和地址, 如果与Rentrak数据库里的用户帐单地址吻合, Rentrak就会返回一个特定的用户ID以及对应机顶盒的数据, 而不必给竞选团队提供用户个个人信息。
这样, 奥巴马的竞选团队建立了他们自己的“尼尔森”研究数据, 包括所有还没有完全决定支持奥巴马的观众的数据库。 竞选团队决定在5月份进行一轮针对罗姆尼的广告攻势。 为此, Carol Davidsen主持开发了一个叫做Optimizer的广告发布监测系统。 这个系统把一天分为96个按15分钟划分的时间块。 从全国60个频道的观众中, 评估出哪个时间段能够以最低平均成本覆盖可说服选民。 Terry Walsh说道:“这次竞选中对于媒体购买的革命性创新就是, 把哪些面向大众的广播形式的媒体, 变成了’窄播’形式的媒体。”
当奥巴马团队在电视媒体上投放广告时, 是因为Optimizer认为这样的购买会更加有效。 有的时候, 购买全国性有线电视广告比去那些竞争激烈的州去购买本地有线电视广告更加经济。 有时候, 购买全国电视广告还有一个好处, 就是可能会推动竞选捐款以及吸引那些共和党州的志愿者们。
奥巴马的媒体购买行为也使得罗姆尼的分析师们感到困惑。 他们也有一套自己的媒体监测系统叫Centraforce。 所用的数据的一部分也和Optimizer所采用的一样。 有的时候, 这两个系统采取的行为也是相似的。 比如都会去某个媒体进行投放。 不过, Lundry认为, 奥巴马的媒体策略要灵活地多。 奥巴马的投放有时会在一些极其细分的市场上, 或者在很小的媒体上投放, 要么就是有的时候, 受众看起来并没有什么价值。 不过, 由于缺乏选民数据模型以及像奥巴马团队所采用的EIP实验所积累的目标选民数据。 罗姆尼的团队很难具体分析奥巴马的策略。 正如McGoldrick所说:“对他们的系统进行反向工程也没什么用, 因此你就算了解了他们算法, 也做不了什么。”#p#
民意测验
尽管选民意见的分析表格看上去像民意测验。 分析师们并不愿意把它叫做民意测验。 竞选团队有很多的民意测验来源。总共有八家民意调查公司每天都在提供民意测验报告给他们。 竞选团队的选民意向研究总监David Simas说:“在这次竞选中, 我们采用的定性分析比任何一次竞选都要多, 我们采用的定量分析也比任何一次竞选要多。 我们需要做的就是在竞选的各个层面上, 利用这些分析所得出的结论。”
Simas把自己的研究工作比做是“空中交通管制”。 它以一系列用户的主观感受为基础。 竞选团队的首席民意调查专家Joel Benenson进行了一些用户访问。 他要求受访者写下一个词来描述对他们的感觉, 最多的词是“失望”。 这既表明了对奥巴马政府的失望, 也从一个更大的方面表明了很多选民对经济形势的失望。 Simas说, 这就是我们这个研究开始时的状况。
奥巴马的幕僚们根据这些用户感受来撰写宣传词, 来突出奥巴马和罗姆尼的差异。 Joel Benenson进行了全国性的调查,测试何种语言能最大程度地打动选民。 他们还聘请了4家民意调查公司去一些特定的州区调查哪些全国性话题对该地区的影响最大。 奥巴马的媒体顾问们据此撰写了500多个广告文案。 通过在线的Focus Group进行了测试。
同时, 竞选团队也需要准备应付一些负面的情况出现。 比如民主党顾问Hilary Rosen关于罗姆尼太太“从没做过一天工作”的评论等等。 竞选团队的Focus Group总监David Binder建立了一个包括了100个未决定选民的讨论区。 Simas有时候就会去跟踪讨论区的讨论, 去研究哪些新闻会引起选民的注意。 有时候, Simas还会故意让Binder放一些奥巴马的负面新闻, 用来观察讨论区的反应。“对我来说, 这是一个判断(某个事件)会不会真的带来麻烦的最快的方法。”Simas说道。
当Dan Wanger把他的投票预测与民意调查过来的投票预测做对比的时候,可以看到一个很明显的区别。 那就是, 在一些争夺激烈的州, Wagner分析报告里奥巴马的支持率要低于民意测验,同时, 罗姆尼的支持率也低。 原因这些州存在大量举棋不定的选民。 有时候, Dan Wagner分析出来的未做决定的选民数, 是民意测验得出数目的两倍。,因为他采用了完全不同的测验方法:
依照Dan Wagner的方法, 需要对一个人做大量分析后才能决定是否把他归类为非选民,而传统民意测验则仅是通过简单的问卷就将其排除。因此Wagner的选民数据库的选民总数往往比传统民意测验的多。
Terry Walsh说:“在我们内部, 有时候需要花很多时间解释为什么这些数字不一致。 其实, 这两者不需要相同。”
这种分析研究能够使得竞选团队对传统民意测验观察不到的很小的支持率变动做出反应。 比如在10月中旬, Simas注意到Wagner的分析报告里,在威斯康辛州绿湾县, 罗姆尼的支持率领先优势从1到2个百分点拉大到了6到9个百分点。 而绿湾是威斯康辛州唯一支持率异动的地区。 尽管一个标准的民意调查的800人样本里, 可能有100个是绿湾的受访者, Dan Wagner的分析研究是基于每周在威斯康辛州5000个电话访问的结果。 Wagner的分析研究所访问的绿湾地区的选民, 可能比民意调查访问到的整个威斯康辛州的选民还要多。 “我们有理由认为, 这样的异动并不是误差。” Simas说。 于是, 民主党方面立刻采取了行动。 竞选团队发起了一系列针对罗姆尼的广告, 抨击罗姆尼对外包的支持。 此外,包括前总统克林顿以及奥巴马总统本人, 都亲自前往绿湾去拉选票。 最终在绿湾, 罗姆尼仅以50.3%对48.5%胜出。
绝大多数情况下, Wagner的分析方法得出的选民支持率,要稳定的多。 不像民意测验那样, 每天甚至每个小时都会剧烈变动。
这也可以理解, 通过上百个属性来判断一个人的投票倾向, 当然要比向盖洛普那样给选民一个7个问题的问卷要可靠的多。 Mitch Stewart说:“那些变动的民意测验结果会让你紧张, 其实支持率的变动没那么剧烈的。 这时候, 看看分析报表你就会平静下来。”
而罗姆尼的幕僚们被民意调查搞得过于乐观了, 他们认为可以通过类似盖洛普的方式来预测选举结果。他们的民意调查专家Neil Newhouse进行民意调查的时候,通过询问用户的投票意愿, 以0 到10 打分。 7分以下的被认为不准备去投票。 这样的方法, 忽略了像EIP实验所揭示的用户行为变化以及竞选宣传的影响。结果, 共和党阵营低估了很多被奥巴马竞选宣传所鼓动起来去投票的选民的人数。
在选举的前一天, Dan Wagner和他的团队成员们离开办公室,来到芝加哥的民主党选举办公室的实时监控区。 在一个月前, 分析师们已经开始计算那些提前投票州的选票情况。 通过选举委员会提供的投票人名单, 以及Dan Wagner模型中每个投票人的支持率倾向评分,他们可以预测该州的投票结果, 并和实际做比对。
在选举日当天, Dan Wagner的分析报表变成了预测。在俄亥俄州提前投票的汉密尔顿县, 选举委员会公布了103,508名选民的名单。 根据Dan Wagner的模型, 有58,379名选民的支持倾向超过50.1, 也就是说, 他们更加可能投给奥巴马。 这使得Dan Wagner的预测奥巴马的支持率是56.4%, 也就是超过罗姆尼13,249张选票。 提前投票地区的选票, 在俄亥俄州选举结束后最先被统计出来, 而最终的结果, 奥巴马在汉密尔顿以56.6%胜出。 在佛罗里达州的提前选举地区, Dan Wagner的预测也只有0.2个百分点的误差。 Jeremy Bird说:“看到这前两个预测结果, 我们就知道, 这次赢了。”
奥巴马这次的第二任竞选的胜利优势, 超过了很多外界的估计。 他的团队成员们当然很兴奋, 不过并没有感到惊讶。 第二天, Mitch Stewart照旧去到办公室监测最后一个州佛罗里达的选票统计结果。 总统的结果已经出来了。 他只是去看一看实际结果和预测结果之间的差异。#p#
传承:大数据里出政权
选举日结束的几天后, 竞选团队的一部分成员, 想4年前一样,被要求留在芝加哥。 对2012年的竞选进行总结。 这个项目被命名为“传承”。 目的是使2012年选举所做的各种创新不仅可以在下一届民主党总统竞选团队复用, 更需要成为民主党竞选的一个常态。 既然在总统竞选中,奥巴马证明了对人们的一些微小改变可能会改变选举结果, 这样的技术是不是也能用到国会选举呢?
数据分析使得奥巴马竞选更加以人为本。 它使得全国竞选时对选民的了解, 达到了竞选本地议员时对当地选民的了解程度。 Simas说:
“数据分析让我们把一个全国总统竞选变得好像本地竞选一样。”“在本地竞选中, 你会像街坊一样了解选民, 谁与谁是什么关系,他们经常去哪家咖啡馆, 这次竞选有点这样的感觉。”
在美国, 很少有像总统竞选这样的,能够影响1.2亿美国成人的营销活动。 几乎没有任何企业或者政府机构能做到这一点。 而奥巴马的团队, 利用数据分析做到了。 数据分析不但能够对公众进行前所未有的细化分类,更可以改变他们的观点。
原文连接:http://www.ctocio.com/hotnews/10664.html