经历了从上个世纪70年代开始“办公自动化”到今天“移动互联时代”,现在人类科技演进再次来到了十字路口。虚拟现实、人工智能、现实增强、物联网、车联网……网络、科技正在逐渐改变我们生活中习以为常的方方面面,可以预见在不远的将来,人类将迎来一轮新的科技爆发。而数据必将是下一次科技爆发的基石!
作为一家专注于大数据领域的公司,TalkingData不断尝试将移动大数据应用于不同领域,更好的发挥数据应有的价值,为不同的行业提供数据应用的新思路、新模式。由TalkingData主办的——“T11 2016暨TalkingData智能数据峰会”在北京中国大饭店隆重召开。国内外各领域的数十位数据专家、行业精英、知名学者齐聚一堂,深入探讨了业界建设性议题,引导行业方向,创造海量商机,堪称数据领域一年一度的行业盛会。
主会场
大会期间,TalkingData CTO肖文峰接受了51CTO记者的采访,对“后大数据”时代,人工智能、海量非结构化数据、智能数据平台(SmartDP),及TalkingData团队情况作了详细介绍。
肖文峰首先介绍说,目前TalkingData在线上的部分覆盖了超过40亿的智能设备,服务12万款应用,拥有10万人次的开发者。线下数据的采集,主要是覆盖80个城市,大概有3000多家商场,有400万个POI指纹信息。线上线下数据的打通,为不同行业提供了精准的基础数据源。
TalkingData CTO肖文峰
TalkingData全球算法大赛
在今年的7月至9月,TalkingData举办了全球算法大赛。大赛中,TalkingData为数据科学爱好者们开放了独一无二的中国移动互联网数据和真实的商业场景,并提供两万五千美元高额奖金,让本次大赛成为全球大数据人才真正实现用数据创造价值的平台。
据肖文峰介绍,全球大概有2000个团队或数据科学家参与了此次算法大赛。大赛中,国外的数据分析师和科学家对中国和中国的数据非常感兴趣。“我们发布脱敏的数据,他们在上面跑各种各样的算法,通过各种可视化的方式去探究人的行为,人口属性,比如男女,发现了很多有意思的算法和场景。这场比赛对我们来说也是了解这些科学家的过程,我们知道这些科学家在哪,他们喜欢什么,如何交流等等。”
肖文峰表示,TalkingData希望逐步把一些数据开放出去,从国外引入更多的数据科学能力,这也算是此次大赛一个亮点。
开放的态度
在TalkingData看来,数据一定要开放,社会才能发展。TalkingData从一开始就站在客观中立的角度,尽可能把数据共享出来,以产生更大的价值。比如“数据观象台”,把一些比较普遍的数据,例如应用排名公示出来,让对这些数据感兴趣的人直接应用。
TalkingData是一个深度的开源社区的拥抱者、参与者、推动者。其大数据监控系统OWL(猫头鹰),就是开源的。
在“T11 2016暨TalkingData智能数据峰会”主会场上,TalkingData CEO崔晓波也公开了两个开源项目:Fregata和Myna。Fregata是超大规模算法引擎,这个算法引擎的优势是在10亿样本、1000万维度的情况下,比Spark MLlib原生算法库的计算效率高两个数量级,大概分钟级可以得到训练结果,它里面做了很多参数的自动调整,还有数据计算引擎的优化等,来提高计算效率,能够达到一次数据扫描就能够收敛。这是市面上别的开源算法库实现不了的。
Myna项目是一个情景感知引擎,能够帮助应用开发者判断手机用户的姿态,是走是跑还是开车等等。Myna有自己的专利技术,与国外的同类技术相比,主要有两大优势。第一是姿态识别速度。它的反应速度比同类技术提高了3倍。同样识别精度的情况下,它的识别时间只有国外同类产品的1/3,同时它的耗电量只有国外产品的1/2,因为它用了一些数据窗口重叠的方法来加速计算,因此耗电量也低很多。第二,不同于同类产品用C++方式来实现,Myna是基于JAVA实现的,集成一些SO的库非常简单。
智能数据平台(SmartDP)
智能数据平台(SmartDP)是TalkingData新创建的词。它是基于智能数据应用,探索商业价值的平台,具有数据管理、数据工程和数据科学的能力。旨在发挥自身优势,利用5年来在数据科学、数据管理、数据工程方面的各项积累,在横跨互联网、移动互联网、传统行业等领域积累的经验,有机整合并产品化,促进行业发展,并为各行各业提供更完善的数据产品及服务。
肖文峰透露,今后,TalkingData所有的产品体系,都会围绕以SmartDP为核心的数据生态,构建数据工程能力、数据的科学能力以及数据的管理能力,增加更多的数据源和数据应用,让更多的合作伙伴基于这个平台产生价值。
团队的力量
据肖文峰介绍,TalkingData的技术团队分四种角色,一是数据管理员,关注于如何汇聚数据,如何高效地清洗数据,是这个团队的任务也是难点。第二种是数据科学家团队,不管是前端客户的需求,还是后端自己的数据分析师,或者数据管理员、数据工程团队,只要有算法的需求,都需要依赖于数据科学家建模,优化算法,提高算法的计算效率。第三种是数据工程团队,接近于传统的产品研发团队,偏工具平台,关注于数据存储、数据计算、云计算框架搭建、虚拟化等。数据工程团队需要提供工具平台,让数据科学家、数据管理员、数据分析师更好地利用数据,管理数据。第四种是领域工程团队,是全能型的技术团队,更加偏项目。领域工程团队负责解决客户的问题,无论是用TalkingData的数据还是第三方数据,无论是用TalkingData的技术还是第三方的技术,最终目的都是为了解决客户遇到的现实问题,完成交付。
此外,社区的贡献也不可小觑,在解决客户问题过程中,技术生态的每个部分,从基础存储计算架构到数据科学,从数据采集、获取、准备、分析到发布,几乎都有涉及,有的靠合作伙伴做,有的需要自己去开发,因此积累了不少技术能力。肖文峰强调,只有保持一种开放的心态,外延才会更大,才能看到更多,只有更多的贡献才有更多的收获!