美国2012总统大选是奥巴马的胜利,但实际上也是统计学家的胜利。奥巴马当选之夜,我看见推特上有一条消息被疯狂转载:
NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATES
当然这是一句玩笑话,但Nate Silver是谁?他号称“竞选预测之神谕”:2008年的总统大选他预测对了最终结果,而且美国50州的投票结果他预测对了49个;今年的大选他又预测对了,并且是50州全对。Silver是一名统计学家,毕业于芝加哥大学,随后在毕马威会计师事务所“度过了令自己后悔的四年时间”(不喜欢那里的工作),后来转向预测棒球选手的成绩,再后来转向政治方面的数据分析和预测。总统大选的预测是一件噪声很大的工作,各家有各家的预测和分析,各种突发事件可能会导致某位候选人的支持短期内大幅变动。Silver的工作就像机器学习中的“集成学习”(他自己的描述是“贝叶斯统计”,用自己的先验信息和数据得到后验),集合众多民意调查结果,根据自己的经验判断去平均它们(具体过程我不清楚)。
我想说的不是这个预测本身,而是我所感觉到的统计学家的变化。换个时髦的词,叫数据科学家。他们和具体的行业紧密相联,有扎实的统计基础,也有丰富的行业经验。不仅如此,大家都会玩编程、做数据可视化。看看Silver在纽约时报的博客就有感觉了。
数据科学家正在“入侵”一些我们以前不能想象的行业,例如总统竞选。除了Silver和其他一大批统计学家做预测之外,奥巴马还有一个数据分析部门,利用各种预测建模和数据挖掘手段来提高奥巴马连任总统的概率;例如这里有他们一则招聘广告,里面提到了R、MySQL、Python等工具。我再给自己无耻地打一个广告:今天我在推特上看见这个部门里的一位数据分析师(见下图,左为奥巴马,右为数据分析师)提到了RStudio和我的knitr包,本码农以后也可以海吹一下牛皮“曾经间接帮助美国总统赢得大选”……
如果你搜索一下数据科学家,你会看到各种光鲜的描述(什么炙手可热啦性感啦),很多光鲜的东西都是坑,当然不绝对;我上大学时大家都觉得精算师像神一样,读(人大)统计的很多同学都是奔精算去的,但我觉得精算就是坑(因为我不喜欢它,再神对我也没用)。媒体报道容易流于表面,这没什么奇怪的,数据科学家应该是一类综合人才,他并不应该只是一门技术的好手,例如纯统计。对统计学家来说,贝叶斯谁不会?半夜三点把你叫醒你都能三秒内背出贝叶斯定理,但让你把贝叶斯统计用到总统竞选上,可能就没多少人做得了这事情了(参见施涛老师的考古文)。一方面,你要会收集数据(各种网络数据来源需要恶心的清洗整理),另一方面,你要有靠谱的先验信息(自己的经验也好,舆情分析也好),可是你只有那个贝叶斯公式,就像卖火柴的小女孩手中的火柴。
我并不想跟传统学院派打仗,但我认为统计教育需要轻微改革。我们需要增强数据和编程方面的教育,诸如实变函数和测度论之类的数学课对统计专业来说应该改为选修,这并不是说让学生偷懒,而是学科细化分支的结果:知识在一代一代积累更新,我们不能要求每一代学生都从盘古开天辟地时的知识学起。有志于投身学术研究的可以那样追根溯源皓首穷经,但统计学家在这个数据时代有更丰富的使命。既然现实中的数据都是恶心得要死(各种不整齐、各种求程序包养),何不在学生时代就先恶心一下?信息时代图形的重要性也日益突出,但Excel的三维饼图条形图只能让人觉得图形有个毛线用;各种软件输出的静态图形在网络时代只能看不能“摸”,要鼠标干嘛(去看看前文提到的Silver的博客,或者通向白宫的512条路,那些才是网络时代该有的统计图形)。
数据科学家的概念在美国提出也就是近两年的事情,在中国发展如何,我们拭目以待。