是什么让数据科学成为一个性感的行业?当把海量数据注入到新兴行业中,并随之而涌现的大量令人兴奋的新技术。
如今,数据科学不再是纯抽象领域的代名词,而是随处可见。
从大型产业到学术研究,无不体现出社会对该专业领域知识需求的增长。如:语音识别、计算机视觉中的物体识别、机器人和自动驾驶、生物信息学、神经科学、系外行星的发现和对宇宙起源的理解、以及组建廉价且成功的棒球队。
数据科学从本质上看涵盖了多学科,所以对其更准确的概括应该是知识提取的过程。基本上就是指成功调试工具进行更高效的信息采集、存储、数据处理和合成。
美国计算机科学家和图灵奖获得者吉姆·格雷(Jim Gray)认为,继经验主义、理论主义及计算模式的思潮过后,数据科学一跃成为“第四范式”。用格雷的话说,信息技术改变了一切。不知不觉中我们已步入第四次工业革命,数据科学连同机器学习与分布式计算一直处于前沿领域,日后的信息技术只会更加普及。
话又说回来了,数据科学到底是什么?在上述例子中,数据科学家就是整个企业的核心。他/她必须将应用领域的知识与统计专业知识相结合,并用计算机代码来实现他们。身处发展如此之快的领域,那么谁又是真正值得信赖的专家?
下面是一些该领域最具权威的领军人物,他们凭借自己的思想和行动致力于信息技术的普及。没有这些人,带动数字世界发展的科技巨头也就不会在人工智能或机器学习方面取得巨大成就。
吴恩达(Andrew Ng,美籍华裔)
人工智能研究的进步呈现出了前所未有的快,得益于更多的人加入到了研究队伍中,
人数比以往任何时候都要多。我很看好这个趋势,我们需要不断招贤纳士!
——吴恩达(@AndrewNg)2019年3月18日
吴恩达是AI和机器学习领域最具权威的专家之一,与他人共同创建并指导了谷歌大脑(Google Brain)研究项目,曾是百度的副总裁和首席科学家,带领了人工智能研发团队。此外,吴恩达也是教育事业的先锋者,其联合创办的 Coursera课程平台深受大众喜爱。而且提起深度学习近年来的变革,人们总会把吴恩达比作催化剂。
李飞飞(美籍华人)
在国会山的时候,我跟议会的成员、参议员还有Stanford HAI的人聊了聊以人为本的人工智能。看到了一句非常好的话,是对人工智能的展望,“人工智能将会让人类之间的联系更加紧密”
——李飞飞(@drfeifei),2019年6月12日
身为斯坦福大学的计算机科学教授,李飞飞目前也是以人为本人工智能研究院的联合主任。她曾是斯坦福人工智能实验室的负责人(2013-2018),被公认为是人工智能、机器学习、计算机视觉和认知神经科学领域的引领者。李飞飞为 ImageNet虚拟数据库项目付出了很多,这也是她最大的成就之一,该数据库主要用于创建视觉识别软件。可以说深度学习变革的进展离不开她在此项目中所作的努力。
Alon Halevy
这句很短的话是我之前写的:搜索的难度会越来越大,因为数据因人产生同时也为人所用。感谢HaixunWang鼓励我写下这些话!
——Alon Halevy(@AlonHalevy)2019年5月3日
Halevy是一名以色列裔美国计算机科学家,也是数据集成领域的领先研究员。他从2005年到2015年担任谷歌的研究科学家,负责谷歌数据融合表(Google Fusion Tables),随后成为技术招聘部门的主管。他还当过华盛顿大学的计算机科学教授。
Halevy是斯隆奖得主,于2000年荣获了美国“青年科学家总统奖(PECASE)”。2006年度的时候,获得了十年一度的VLDB Endowment奖。他也是Nimble技术公司(现更名为Actuate企业)和Transformic Inc公司的创始人。Halevy于1993年在斯坦福大学获得了博士学位。
Ben Lorica
发博:人工智能和机器学习会通过整个组织进行再训练,因此,企业有必要对员工进行全面性的训练。
——Ben Lorica(@bigdata),2019年6月26日
Lorica是奥莱利媒体公司( O’ReillyMedia)的首席数据科学家,同时是年度人工智能大会以及Strata数据大会的项目负责人。他的研究方向是商业智能、数据挖掘和机器学习。Lorica在推特上十分活跃,也是一位高产的作家,其出版的书籍会定期在O’ReillyMedia的博客上发布。
Bernard Marr
影响我们每天生活的关键因素就是快速发展的技术产业。Statista公司发布的一份报告显示,预计全球自动化市场的营业额将在2020年超过500亿美元。
——Bernard Marr(@BernardMarr),2019年7月10日
Marr是个未来主义者,他的书在世界各地都非常畅销,演讲也十分受欢迎。很多政府和各大企业都会邀请他来当人工智能和数据数据科学的顾问。Marr的终极目标是让世界更好地运用数据。
Chris Surdak
在教条延续几个世纪以后的今天,分形传达的信息令人不可思议——所有复杂甚至既存的法则都难免留有数学的印记。机器人流程自动化(RPA)、机器加工(Machining)以及人工智能的普及一旦为人们所接受,就不再是晦涩难懂的东西了。
——Chris Surdak(@CSurdak),2019年5月9日
Surdak声称自己就是个“大数据”。他是一位作家,也是名火箭专家,同时还是技术策略与大数据的专家(这并不见怪)。现在的Surdak没事写写书,经营着自己的顾问公司,以前他在惠普、戴尔、花旗银行都从事过。他一直致力于研究如何最大化利用数字经济的潜力。
DJ Patil
数据科学是团队活动。
——DJ Patil(@dpatil),2019年6月15日
2015年至2017年,DJ Patil是美国首席数学家。2008年他与脸书早期的数学科学负责人Jeff Hammerbacher共同命名了“数据科学家”一词的现代版本,这在当时也引起不少关注。目前Patil在Devoted Health公司担任技术总监,之前是RelateIQ(被Salesforce收购)的产品副总裁、Color Labs的首席产品官以及LinkedIn的数据产品负责人和首席科学家。担任国家第一任首席数据科学家期间,他还成立了新的医疗项目,有精准医学计划、“癌症Moonshot”倡议;此外也进行了新一轮的刑事司法改革,通过了数据驱动司法和警察数据提议。帕蒂尔在2016年荣获国防部杰出公共服务奖章。
Doug Cutting
之前在红木城福克斯剧院参加过两场活动,真的觉得今天这场庆祝Cloudera和 Hortonworks两公司的合并更有意思,是有在向观众传达信息的,而且放了“桶头”的摇滚乐。
——Doug Cutting(@cutting)2019年1月10日
Doug Cutting创立了搜索索引器 Adobe Lucene和网络爬虫(或蜘蛛)Nutch,二者是通用开源软件平台必不可少的组件,不仅如此,还将通用开源软件(如Linux 和MySQL)的性能提升到了垂直搜索层面。Cutting毕业于斯坦福大学,在施乐帕罗奥多研究中心(Xerox PARC)从事Scatter/Gather算法和计算风格方面的研究工作。他曾是搜索引擎Excite的一位首席设计师,是Apple’s V-Twin 文本搜索框架的主要构思者,之后创建了 Lucene。
Dean Abbott
毋庸置疑,科学和艺术对高效的机器学习来说缺一不可,因为数学就是文字。机器学习哪有什么常识啊,所有的“知识”都是输进去的数据!
——Dean Abbott特(@DeanAbbott),2019年6月7日
Abbott是SmarterHQ的联合创始人,这是一家专注于研发个性化人工智能的公司,他在里面也担任着首席数据科学家的角色。Abbott写了很多有关数据科学的书,比如《应用预测分析——专业数据分析师需了解的原则和技巧》(Applied Predictive Analytics: Principles and Techniques for the ProfessionalData Analyst)感兴趣的话可以看看他的博客,上面还有更多个人成就。
Hadley Wickham
- a <- factor(c("character","in", "the", "streets"))
- b <- factor(c("integer","in", "the", 'sheets'))
- c(a, b)
- #> [1] 1 2 4 3 2 1 4 3#rstats
——Hadley Wickham(@hadleywickham)2019年7月9日
大家可能不知道这个,但其实Wickham的成就随处可见。统计语言中经常会用到他创建的许多包(package),全世界下载量最多的三个R包都是他的。简言之,他就是R方面的专家,而且写的书也跟这方面有关,如《数据科学中的R》(Rfor Data Science)。平日里若不是研发统计模型,那Wickham一定是在出席各个大数据会议,宣传自己的想法。
Hilary Mason
肯定有很多人不认同,但我依然喜欢发邮件,我觉得它对维持人与人间的关系有着不可小觑的作用,因为它真的有在提高人们沟通的效率。不过我说的也不一定对。
——Hilary Mason(@hmason),2019年6月11日
Mason是数据产业领域的领军人物之一,跟许多组织开展合作,将数据科学更好地融入到传统经济领域中。之前她是Bit.ly.公司的首席科学家,最近忙于自己人工智能企业(Fast Forward实验室)的建立。Mason还有一个角色,就是HackNY的联合创办人,该组织专注于培养未来的计算机科学家和计算机工程师。
Ilya Sutskever
机器学习非常神奇,核心概念并不多,没有过分地违反常理,并且在正确的引领下,该领域前沿的大致方向也是正确的!
——Ilya Sutskever(@Ilya Sutskever)2019年5月17日
Sutskever目前是OpenAI的首席科学家,该人工智能初创公司由伊隆·马斯克成立。Sutskever研究的是人工智能的风险计算以及如何应对。在整个职业生涯中,他为深度学习做出了巨大贡献。同时,他也是AlexNet神经网络的联合发明者。在多伦多大学获得了计算机科学博士学位。2015年,Sutskever荣登《麻省理工科技评论》35 Innovators Under 35。
Jake Porway
今天要讲数据科学建立的操作和服务于SXSW社会影响力的人工智能,我非常激动。加入330对话吧!
——Jake Porway(@jakeporway)2019年3月8日
Porway是DataKing的创始人兼高级总监,这是一支由代码人和统计学家组成的跨学科队伍,他们的共同目标就是普及人工智能和数据科学。Porway最近在纽约时报的搜索和研发实验室担任数据科学家。曾获得了哥伦比亚大学的计算机本科学位和加州大学洛杉矶分校的统计学硕士和博士学位。
John Myles White
统计实在是太难了,但那些不相信它的人(比如心理学家)很有可能传递错误的信息。事实证明的确如此,而且这个问题一直存在。
——John Myles White(@johnmyleswhite),2019年6月30日
John Myles White目前是脸书的数据科学家,平日也会通过Julia编程语言的搞一些开发。他专攻的对象是机器学习和统计(尤其是R)。除去全职开发员的身份,怀特也写各种各样的书,比如“黑客看的机器学习”、用于网页优化的Bandit 算法。
Kira Radinsky
我为自己的学生感到非常骄傲,他们写出了一个自动化公式1!可以在以色列的高速公路上开!
——Kira Radinsky(@KiraRadinsky),2018年10月19日
Radinsky是eBay的数据科学总监,也是eBay以色列分部的首席科学家。她曾是SalesPredict公司的首席技术官,该公司后来被eBay收购。Radinsky把所有的热情都投在了预测数据挖掘上。她是数据科学界燃起的一颗新星,登上过福布斯30Under30榜单。
Kenneth Cukier
人工智能取得的成就当然有其他令人振奋人心的实例,只不过是通过间接或二阶效应体现。在医疗诊断上,人工智能的应用或许只适用于人类——但却降低了辐射的应用,对病人的安全保障和就医环境来说是一次巨大的进步。
——Kenneth Cukier(@kncukier),2019年6月20日
Cukier是经济学人的数据专家,同时也是一位高产的作家,出版的《大数据:一场能够改变我们生活、工作和思考的变革》(Big Data: A Revolution That WillTransform How We Live, Work, and Think)。他的时间大部分都用在了讨论人工智能和大数据的未来上。Cukier在TED(这是他参加的为数不多的公开讲话)上说过这样一句话“大数据是更好的数据”。
Kirk Borne
沉浸式创新的下一代前沿领域——VR和AR将结合数据科学、人工智能、创造性能、机器学习以及设计和设计思维为训练和计划提供稳定的环境。
——Kirk Borne(@KirkDBorne)2019年7月10日
Borne是一名数据科学家,被誉为当今世上最具影响力的人物之一。他研究人工智能和大数据,因此又被IPFC喻为数据科学领域的“排行第一的数字影响者”。你不仅能在世界各地的会议上看到他的演讲,这个人在天文方面也能侃侃而谈。之前他在NASA的哈勃太空望远镜数据团队工作过一段时间。
Marck Vaisman
能在下周纽约市举办的DominoRev峰会上讲话,我很激动!到时候会分享我从商从政以及学术方面的有关数据科学的经验,也希望从更多在场的优秀数据科学领导者身上学到更多的东西。
——Marck Vaisman(@wahalulu),2019年5月14日
Vaisman是乔治敦大学和乔治华盛顿大学的兼职教授,给研究生教授大数据的课程,也是微软公司的技术解决专员。因为是做数据科学的,他会帮助顾客操作Azure云端,云端也将运用于数据科学、高级分析和人工智能的处理。Vaisman是R的编程者和倡导者,在2010年启动了统计编程哥伦比亚地区项目,同时也是数据社区哥伦比亚地区的联合创始人,组织的成立推动了该地区数据科学和分析的发展。
Monica Rogati
我并不觉得数据科学家一抓一大把,但我相信想成为数据科学家但不切实际的人有很多。“我是个打篮球的,但不想做枯燥的训练,只想扣篮,像电视上一样。NBA我来了!”
——Monica Rogati(@mrogati)2019年2月14日
Rogati是Data Collective (DCVC)的股权合伙人,也是CrowdFlower的科学顾问。2013年至2015年间,她是Jawbone的数据副总裁。曾经也是LinkedIn的高级数据科学家,在这里用五年的时间创建了最初的工作匹配系统,也为LinkedIn建立了首个机器学习模型——“可能认识的人”推荐功能。2014年,Rogati被《财富》(Fortune)评为“大数据全明星”,同年,Fast Company授予她“百位最具创造力商业人物之一”的荣誉称号。她获得了卡内基梅隆大学的计算机科学博士学位。
Lukas Biewald
深度学习班上有位同学(@thegautam)借助GPT-2模型生成网站域名,效果太棒了。
——Lukas Biewald(@l2k),2019年6月24日
Biewald是Weights&Biases公司的创始人,该公司主要创建适合机器学习的开发工具。早在2007年,他是FigureEight Inc.互联网公司的联合创办者,该公司当时是收集用于机器学习的训练数据。在那之前,Biewald曾是Powerset的高级科学家和经理,Powerset是一家自然语言搜集技术公司,随后被微软收购。
自2005年至2006年间,他带领Yahoo! JAPAN的搜索团队,专注于研发统计机器学习,提高国际市场的网页搜索功能排名。Biewald拥有斯坦福大学的数学本科学位和计算机科学硕士学位,在2010年因创建GiveWorkiPhone应用程序荣获Netexplorateur奖,该程序让用户只需通过简单的操作就能足不出户地帮助难民和发展中国家的人。Inc.杂志上说的30位30岁以下的商业精英就有他的名字。
Nando de Freitas
剑桥大学的研究员研发了一款可以识别、筛选生菜的机器人,并且不会破坏生菜。
——Nando de Freitas(@NandoDF),2019年7月8日
Freitas是英国一家人工智能公司DeepMind的首席科学家,该公司是创建神经网络的,在2004年被谷歌收购。目前他是牛津大学计算机科学系的教授,研究机器学习领域中的神经网络、贝叶斯推断(Bayesian inference)和深度学习,凭借机器学习方面的工作他还获得过多项奖项。
Peter Skomoroch
很多合法的初创企业都会因为社会中的各种声音迷失了方向。我们是不是需要给人工智能初创企业来几场顾客报告?通过一些基础操作或者瞥一眼某位机器学习资深人士的融资演讲稿,可以了解很多商业案例的。
——Peter Skomoroch(@peteskomoroch),2019年6月25日
Skomoroch是LinkedIn的首席研究科学家,提供了“技能”及其他一些数据驱动的服务。他建立了数据整理(Data Wrangling),进行数据挖掘,提供预测分析咨询服务。在加入LinkedIn之前,他曾担任过Juice Analytics的高级分析总监、AOL Search的高级研究工程师,也是麻省理工学院Lincoln 实验室的研究人员。Skomoroch获得了布兰戴斯大学的数学物理学士学位。
Sebastian Thrun
谷歌眼镜的问世、Focalsbynorth智能眼镜的发布(我惊了!),当然还有我在Magicleap公司的第一周都非常棒,这个公司果然名不虚传。Focals可能是最赞的AR体验了,我迫不及待想看更多的Leap应用程序!
——SebastianThrun (@SebastianThrun)2019年4月24日
Thrun创立了Google X,自此在数据科学领域一举成名。该项目旨在研究未来技术和潜在领域。Magicleap之所以能够相继推出自动驾驶汽车、谷歌眼镜等就是拜GoogleX所赐。目前Thrun在斯坦福大学做研究,他也是Udacity的创始人。
Wes McKinney
蚁群算法(Ant colonies)跟C++构建系统有许多共同点。
——Wes McKinney(@wesmckinn),2019年3月15日
McKinney是Pandas数据库的创始人,致力于开发Python编码语言。他著的书不仅跟数据库有关,还拓展了很多Python领域的知识,经常是全球大大小小数据会议的重要人物。貌似只有数据专家才能关注他的推特,不过他的见解十分重要。
Yann LeCun(法裔美国计算机科学家)
常识植根于语言一直是一个误解。恕我直言,常识来源于你对世界的认知,
相比语言它跟直观物理(IntuitivePhysics)有着更多千丝万缕的联系。
不过这个世界少不了人与人的沟通,语言也就成为了其中的一部分。
——Yann LeCun(@ylecun)2019年7月9日