数据爬取亟需规范平台又该承担何责？-数据爬取合法吗

日前，淘宝近12亿条用户信息被泄露一案引发关注。

河南省商丘市睢阳区人民法院公布的一起案件显示，犯罪分子通过自己开发软件爬取到了淘宝客户的数字ID、淘宝昵称、手机号码等信息近12亿条，用于从事淘宝客推广业务，共获利34万余元，最终被判处侵犯公民个人信息罪。

近年来，数据泄露案件频发。有专家指出，尽管企业在其中也是受害者之一，但是从个人信息保护的角度，只要用户因信息泄露遭受损失，平台需肩负一定责任。

随着国家及地方层面的立法纷纷落地，压在我国企业数据安全的担子日渐加重，不履行相关义务的将会面临罚款。另一方面，爬虫等网络技术的应用也亟需法律规制，这些技术的使用边界正待进一步的规范。

淘宝近12亿条用户信息被泄露

裁判文书显示，2020年8月，淘宝(中国)软件有限公司报警称，7月6日至13日时，有黑产通过mtop订单评价接口绕过平台风控批量爬取加密数据。这期间爬取的字段量巨大，平均每天爬取数量为500万，爬取内容包括买家用户昵称、用户评价内容、昵称等敏感字段。

经淘宝排查发现，逯某有重大作案嫌疑，其在黎某开设的湖南省浏阳市泰创网络科技有限公司(以下简称“浏阳泰创”)任技术员一职。

浏阳泰创的主要业务是淘宝客，即在微信群里进行淘宝商品的推广，从而获得淘宝网佣金和商家服务费。

2019年11月起，逯某在家中开发爬虫软件“淘评评”，通过淘宝网页接口爬取客户信息，并将其中的手机号码提供给黎某。

爬取的信息用于何处?黎某将这些信息数据导入一个名为“微信加人”的软件中，用以添加微信好友。据公司员工描述，公司创立了多个微信群，最多可能达1100个，每个群的人数在90到200人之间不等。这些员工负责在群里发送广告链接，一旦淘宝用户在广告群里购买了商品，公司即可获得佣金。

截至2020年7月，该公司利用爬取的信息经营共获利340187.68元。经司法鉴定，逯某通过其开发的软件爬取淘宝客户的数字ID、淘宝昵称、手机号码等淘宝客户信息共计1180738048条，逯某将其爬取信息中的淘宝客户手机号码通过微信文件的形式发送给被告人黎某使用共计19712611条。

被爬取的信息是否还用于其他地方?逯某称，除了将手机号提供给黎某外，客户ID和淘宝昵称都存在了自己的电脑硬盘中，未有外泄。黎某方则辩称，起诉书指控395万余是公司全部的经营额，获利数额应是37万元，未将信息用非法目的。上述信息均被法院采纳。

法院最终认为，逯某和黎某违反了国家规定，非法获取公民个人信息，情节特别严重，均已构成了侵犯公民个人信息罪。综合其犯罪情节及社会危害性，法院判处黎某有期徒刑3年6个月，并处罚金35万;逯某有期徒刑3年3个月，并处罚金10万。

“一般来说，在类似事件中平台往往也是受害者，只要平台采取了必要的技术防护措施、在数据泄露事件中没有过错，事发后能够及时向用户和监管部门通知相关情况，并采取补救措施、积极挽回损失，一般不会被行政处罚。”上海申伦律师事务所律师夏海龙分析，但是从个人信息保护的角度看，只要用户因信息泄露遭受损失，平台就需要首先向用户赔偿损失。

企业数据安全责任加重

近年来国际上频发的数据泄露事件，不仅让涉事平台承担着高昂的损失费用，还可能因危及大量用户的个人信息安全，面临着巨额罚款。

2020年11月，美国酒店集团万豪就因遭受网络攻击，致使数百万客户个人数据泄露，收到了英国监管机构(ICO)开具的1840万英镑巨额罚单。ICO调查发现，万豪没有按照通用数据保护条例(GDPR)要求，采取适当的技术或组织措施来保护其系统上的个人数据。

社交巨头脸书亦多次深陷数据泄露的泥潭。今年4月，脸书被指泄露5.33亿用户数据，尽管后来澄清系2年前的旧消息，并已修复相关漏洞。但不由让人联想起2018年英国“剑桥分析”公司非法获取8700万脸书用户数据一事，此案最终以脸书同意支付50亿美元罚款落幕。

随着国家及地方的立法纷纷落地，压在我国企业肩头的数据安全的担子也将逐渐变重。

6月10日通过的《数据安全法》规定，开展数据活动的组织、个人不履行数据安全保护义务的(包括采取必要措施保障数据安全、加强风险监测、开展风险评估等)，由有关主管部门责令改正，给予警告，可以并处5万元以上50万元以下罚款。

正在二审的《个人信息保护法》草案也对个人信息处理者提出了相应要求，如制定内部管理制度和操作规程、对个人信息实行分类管理、采取相应的加密、采取相应的加密和去标识化等安全技术措施、制定并组织实施个人信息安全事件应急预案等。

深圳、上海、天津、安徽等地的数据立法同样高度重视数据安全问题。

如6月2日发布的《深圳经济特区数据条例(征求意见稿)》提到，数据处理者应当落实数据安全管理责任，防止数据泄露、毁损、丢失、篡改和非法使用，落实监测预警措施，制定数据安全应急预案，风险发生时及时告知相关权利人，并向网信部门和有关行业主管部门报告。

不当使用爬虫涉多重法律风险

对内，作为数据收集和处理者的企业应建立起完善的数据保护体系;对外，爬虫等网络技术的应用也亟需进一步规范。

网络爬虫是互联网时代一项运用非常普遍的网络信息搜索技术，最早应用于搜索引擎领域，通过搜集网页上的信息或数据，将其纳入数据库中。

不当使用网络爬虫技术可能带来多重法律风险。除了上述提到的非法获取计算机信息系统数据、非法控制计算机信息系统罪和侵犯公民个人信息罪，还可能触及侵犯著作权罪、诈骗罪，构成不正当竞争等。

如上海市徐汇区人民法院公布的一起案件中，段某于2013年开设视频网站，未经著作权人许可，利用爬虫技术对乐视、土豆等视频网站的影视作品设置加框链接，屏蔽片头广告，转而在自己的网页内发布广告，获利74万多元。法院最终判定段某构成侵犯著作权罪。

另一则上海市宝山区人民法院公布的案件中，爬虫技术成为了实施诈骗的工具。叶某雇佣他人，通过购买爬虫软件获取淘宝网新开店店家信息，冒充淘宝客服人员向店家发送店铺未激活、交易关闭等虚假信息，以帮助店家解决问题为由诱骗被害人同意其进行远程协助并提供支付宝账户及密码，后其通过电脑远程操作的方式使用被害人支付宝为视频账户充值。法院认为，叶某的行为构成诈骗罪。

与爬虫相关的法律问题，更多的是涉及垄断及不正当竞争的争议。如2013年的“百度诉360案”、2017年的“酷米客诉车来了案”，以及2016年的“微博诉脉脉非法抓取用户信息案”。

6月14日，美国最高法院要求下级法院重审领英诉讼竞争对手hiQ Labs抓取用户公开资料一案。此前，因相关法案并不禁止公司抓取可在互联网上公开访问的数据，领英败诉。

这些案件的争议点多为数据权属问题，网络爬虫能轻易收集用户数据，而在数据即石油的将来，保有对用户数据的控制权是各互联网经营者的必争之地。

以“微博诉脉脉非法抓取用户信息案”为例，人脉社交应用脉脉上线之初曾与新浪微博合作，用户可通过微博账号和个人手机号注册登录脉脉。但新浪微博发现，脉脉还大量抓取、使用了新浪微博用户的头像、名称、职业、教育等信息。双方遂终止合作，新浪微博提起诉讼。

一审和二审法院均认为，脉脉的上述行为构成不正当竞争。法院二审判决指出，在数据资源已经成为互联网企业重要的竞争优势及商业资源的情况下，互联网行业中，企业竞争力不仅体现在技术配备，还体现在其拥有的数据规模。脉脉违反《开发者协议》，未经用户同意且未经新浪微博授权，获取其用户的相关信息并展示在脉脉应用的人脉详情中，侵害了新浪微博的商业资源，不正当的获取竞争优势，这种竞争行为已经超出了法律所保护的正当竞争行为。

目前，我国尚未有针对网络爬虫技术的配套法律法规。多重纠纷之下，网络爬虫的使用边界正在被规范。在网信办2019年5月发布的《数据安全管理办法(征求意见稿)》中，首次划定了网络爬虫的法律红线。

意见稿第2章第16条规定，网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行;此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。

数据爬取亟需规范 平台又该承担何责？

淘宝近12亿条用户信息被泄露

企业数据安全责任加重

不当使用爬虫涉多重法律风险

数据爬取亟需规范平台又该承担何责？