历时三个月之久的中数经纬爬虫PK赛已圆满结束。本次大赛面向全国开发者、爬虫爱好者、在校学生展开爬虫技能PK。大赛从启动,推广,招募,提交报名,作品实现,改进,评选等整个流程,得到众多企业和媒体的关注。
中数经纬首席科学家、中数经纬算法专家团集中这3天时间,配置环境,执行完所有参赛者提交的作品程序。从代码是否可运行、算法、数据质量、数据抓取效率等五大方面进行综合打分。
在提到参赛作品质量时,专家团表示:
“数据分析和展示这方面做的出乎意料,有几位参赛者不仅有可视化展示,还搭建了web框架,这是难能可贵的。另外爬取数据源的范围也比较广泛,涉及新闻、影评、论坛、贴吧、视频,图片网站、简历、以及房产等各个行业的信息。然而有所欠缺的是反爬技术体现不是很充分,有些数据质量还有待清洗。虽然比赛是关于爬虫的,但是数据最终是拿来用的,价值挖掘始终是原则,我们公司也一直以“把无序变有序,让数据有价值”的核心理念来为各个行业服务的。爬虫与反爬虫相互依赖,祝愿大家技术精进,工作顺利!“
获奖名单
专家团对可执行的程序代码进行了逐一点评。
1、
薛祥,ETL工程师。B站流量在中文网站排名中名列前茅, 视频数量众多, 用户活跃度高, 对于B站的用户和视频抓取, 分析用户和视频信息, 对此进行可视化, 可以帮助我们了解该网站。
专家点评:这个项目是我们公认最好最完整的,其中涉及到数据采集,清洗,分析,以及数据可视化,另外还有前端后端协同展现,基本算得上是全栈开发了。
综合得分:26分,荣获一等奖。
运行结果如下图
2、
张建华,湖北师范大学,计算机科学与技术专业,大三学生,学Python快一年了。我爬取的是猫眼APP评论和用户信息,公众号主要分享学习笔记,认识朋友。
专家点评:这个项目也是比较优秀的,前期跟进的时候对作者基本有所了解,项目作者是一个自学能力和执行力很强的在校生,项目涉及数据采集,数据分析和可视化,思路很清晰。
综合得分:24分,荣获二等奖。
运行结果如下图
3、
尹强,Python爬虫工程师。我爬取的是拉钩/房产信息。
专家点评:项目涉及拉钩招聘信息和房产信息,爬虫技术有验证码识别,自建自维护代理。数据做了清洗质量很好。看得出来是个爬虫经验者,有丰富的反阻爬经验。希望作者以后能在数据分析方面取得更好的成就。
综合得分:24分,荣获二等奖。
运行结果截图
4、
卢文龙,数据产品经理。我比较关注数据变现及数据价值挖掘,通过这次比赛,我在数据爬取内容如何在个人层面变现进行了一些思考,发现爬取东方财富股吧用于做为投资参考值的尝试下,很多软件也会提供一些类似的参考分析,但里面算法很多不知其所以然,且收费的多,不如自己搞一搞。最后在爬虫技术,NLP技术,数据挖掘,理财投资方面都得到了锻炼和提高。
专家点评:这是本次比赛中唯一一个爬取金融数据的项目,因为诸多直接利益的驱动,目前金融行业大数据应用是比较广泛的,从数据挖掘到机器学习各种技术都在这个行业竞相绽放。东方财富对爬虫还算友好,数据质量很好,希望能在分析方面及预测方面下功夫,找到突破,获得更高的成就感。
综合得分:23分,荣获二等奖。
运行结果如下图
5、
杜宽 爬虫爱好者
感谢中数经纬举办的爬虫PK赛,让我重拾了自己的爬虫项目,也认识了很多做爬虫的朋友,经过这次比赛,自己对反爬虫和反反爬虫又有了新的认知,也让自己在这场没有硝烟的战争中更上一层楼。
爬取京东、淘宝的商品数据和评论。感谢scrapy提供的分布式爬虫框架,让数据采集变得如此简单,再庞大的数据汪洋,也能得心应手。
专家点评:从提交项目GitHub上来看,作者是一个经验很丰富的爬虫工程师,电商,问答,招聘网站都曾涉猎过。可以互相交流,共同学习。不足之处,项目运行环境太复杂。
综合得分:21分,荣获三等奖。
6、
张正,软件工程师。我爬的是一个网站,斗图网吧,斗图表情包。
专家点评:现在微信群聊和自媒体平台对表情图都有一种依赖,表情图确实有一种不言其义却明其理的魔力,能有效提升社交效率。这个项目就是抓取斗图吧的数据,数据质量还不错,应用价值比较高。
综合得分:20分,荣获三等奖。
运行结果如下图
7、
张俊川,爬虫爱好者。我爬取的是豆瓣,10条数据,url记录,重在参与。
专家点评:豆瓣是每个爬虫初学者最喜欢的地方,因为她总是那么的友好。作者是个爬虫爱好者,希望通过本次比赛你能学到更多爬虫知识,结识更多技术大牛。
综合得分:19分,荣获三等奖。
8、
符露,C++爬虫工程师。参赛作品是爬取Facebook数据。
专家点评:Facebook是在全球范围内使用比较广泛的社交软件,所以每天数据产量也是很大的。项目抓取了用户发文信息,并做了清洗处理。
综合得分:18分,荣获三等奖。
9、
常怀德,Python爬虫工程师。爬的微博用户信息。
专家点评:项目是通过某用户关注和粉丝抓取微博用户的个人信息,包括粉丝,关注,发文,地址,性别等字段。数据质量很好,希望可以用大量数据做简单分析及可视化。
综合得分:18分,荣获三等奖。
10、张学文,运维工程师。爬取今日头条新闻数据,只是我用到一个优化textrank算法,主要就是针对这个算法解决问题。
专家点评:这个项目作者提供了两种抓取方案,一种是常规爬取,另外一种是seleniume结合JS爬取。希望能优化textrank算法,能在数据分析和可视化方面有所提高。
综合得分:17分,荣获优秀奖。
运行结果如下图
11、
李建国,PHP开发工程师。爬取金华当地比较知名的一个本地社区论坛。
专家点评:这个项目是用PHP来爬取的,也是唯一一个python外的语言,很新颖,那……PHP真的是最好的语言吗?从技术来看这个项目更像是个练手的项目,希望能完善各个功能。
综合得分:16分,荣获优秀奖。
12、
刘海滨,C++爬虫工程师。爬取网易云音乐评论。
专家点评:抓取某热门音乐的评论信息,有清洗处理,生成简单云图。
综合得分:16分,荣获优秀奖。
13、
吴乐伟,Python爬虫工程师。爬取新闻网站。
专家点评:这个项目是抓取各大新闻网站,技术难点是各大新闻平台的结构和版式都是不一样的,需要用算法尽量精准地匹配各个字段。目前项目还不算很成熟,需要数据和经验不断积累的过程中不断完善。
综合得分:16分,荣获优秀奖。
14、
张乃驰,爬虫爱好者。爬取微信公众号内容。
专家点评:项目通过搜狗接口抓取指定公众号历史数据,采集难度不大,有清洗处理,数据质量很好。
综合得分:16分,荣获优秀奖。
15、
任然然,PHP开发工程师。爬取大众点评轰趴馆点评数据。
专家点评:大众点评也是爬虫访问比较多的网站,但是最近大众点评将评论信息加密处理了,爬取难度加大了不少。项目有解密过程但是不尽完善,数据有缺失。
综合得分:15分,荣获优秀奖。
16、
黄帅,开发工程师。爬取CSDN首页资讯。
专家点评:抓取了CSDN的首页信息,有清洗处理。希望能按技术类别抓取各个技术栏目的博文信息。
综合得分:14分,荣获优秀奖。
17、
臧阔,运维工程师。爬取贴吧内容。
专家点评:项目是抓取某个活跃贴吧的发帖内容,并做了简单的文本分析,数据中的表情符希望能处理一下。
综合得分:14分,荣获优秀奖。
18、
杨振原,数据研究员。爬取天涯论坛数据。
专家点评:项目通过某关键词抓取相关论坛信息,能精准抓取某行业谈论信息。希望有简单数据分析及可视化展现。
综合得分:13分,荣获优秀奖。
19、
秦猛,爬虫爱好者。爬取腾讯新闻客户端。
专家点评:抓取首页新闻链接信息,然后再深入爬取文章详情页。希望能添加简单文本分析。
综合得分:13分,荣获优秀奖。
20、
可心,Python爬虫工程师。爬取京东评论内容。
专家点评:抓取某热门商品的评论信息,希望能做简单可视化分析处理。
综合得分:12分,荣获优秀奖。
21、
郭继超,时间原因,GitHub项目来不及完善。
阅读原文查看具体奖励机制:
http://www.chinadata8.com/reptilian_competition.html
请将收货地址发送给中数经纬小官(微信号xingbali123356789),我们将尽快为您邮寄大赛奖品。截止到11月19日没有发送地址的获奖者将视为自动放弃奖品。再次感谢您对中数经纬爬虫PK赛的关注与支持! 如果您正在寻找就业机会,欢迎加入我们。
http://www.chinadata8.com 把无序变有序 让数据有价值
电话: 010-88430890
邮箱: kefu@chinada ta8.com