爬虫玩得好，牢饭吃到饱？这3条底线千万不能碰！-爬虫爬的好,牢饭吃到饱

数据爬取技术一向是数据公司获取数据的高效途径之一，但严格意义上爬取行为本身并不是完全合法合规的，按我国目前的法律法规及司法判例，爬虫技术可能会触犯以下几个维度的法律要求（仅列出相对重点的法律维度）。

在未征得被爬取方授权的情况下，爬取数据的行为可能会违反Robots协议。Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。2012年11月1日，十二家企业共同发起了《互联网搜索引擎服务自律公约》，公约要求各签约方遵守Robots协议。

在司法实践中，即使爬取方不属于上述12家公司的范围内，Robots协议也已经被认定为互联网行业搜索领域内公认的商业道德：北京市第一中级人民法院在某互联网安全公司不正当竞争案件中，将行业内公认的Robots协议认定为互联网行业搜索领域公认的商业道德。

法院在判决中指出：

在被告推出搜索引擎伊始，其网站亦刊载了Robots协议的内容和设置方法，说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则，应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。

因此，爬取方违反Robots协议的行为可能会被认定为违反《反不正当竞争法》第2条，即违反诚实信用原则以及商业道德。

虽然网络上公开的信息较难构成商业秘密，但由于网络上的某些信息可以通过采取技术措施使得仅有特定的用户可以接触，因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性，构成商业秘密的可能。

如果爬虫控制者在抓取信息的过程中有意地规避了网站经营者设置的保护措施，接触、保存甚至披露了一般用户原本无法访问的信息，而该等信息又构成商业秘密，则爬虫控制者的该等行为存在侵犯他人商业秘密的可能，进而可能会违反《反不正当竞争法》第9条。

同时，因为爬虫会对被爬取方的网络系统等造成妨碍，所以此类行为可能会违反《反不正当竞争法》第12条。

无论是网络上的文章、图片、用户评论，还是网站自身的数据库，都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用有可能会构成对著作权的侵犯，特别是复制权和网络信息传播权。因为抓取数据的行为本质上是对数据的复制，因此该等行为有可能侵犯著作权人的复制权。

同时就数据提取和使用行为而言，如果爬虫控制者抓取信息后，在自己的网站上公开传播抓取到的信息，则还有可能进一步侵犯信息网络传播权。

例如，马某某等诉某网络科技公司著作权侵权纠纷案。

案情事实

被告某网络科技公司利用类似搜索引擎的计算机爬虫技术进行法语词条的收集与翻译释文的搜索，未支付相应报酬而大量使用原告享有著作权的《当代法汉科技词典》中的内容，马某某将该网络科技公司以侵犯著作权为由诉至法院。

判决结果

根据法律规定，除合理使用外，使用他人作品应当经著作权人同意，并支付相应报酬。被告称其通过爬虫技术收集了词汇词条及中文释义，该技术是被告收集并形成其网络词典词库的一种手段，而非在使用《法语助手》时，通过搜索链接直接指向其他目标网站，被告应该对其收集并使用的词汇及中文释义合法性负有较高的审核注意义务。

因此，被告制作的法语翻译软件内容，部分抄袭原告《当代法汉科技词典》的释义内容，侵犯了原告等人的著作权，应依法承担停止侵害、赔礼道歉、赔偿损失的民事责任。

从技术角度分析，爬虫可能会导致目标网站负荷过大，进而引起网站无法访问甚至瘫痪等不良后果，爬取方可能会违反《网络安全法》中关于网络运行安全方面的规定。但如果你还涉及侵入的情况，就可能会触犯《刑法》第285、286条的规定。

例如在某案例中，王某利用远程登录的方法，通过一个攻击指令侵入目标公司的计算机信息系统，将系统中公司员工的邮箱、通讯录导出来，再修改相应的密码，从而可以随意进入员工的邮箱，最后被判处非法获取计算机信息系统数据罪。

从爬取的内容角度分析，如果爬取的内容是个人信息，那么可能违反《网络安全法》关于收集个人信息合规性的要求，甚至可能触犯《刑法》中的侵犯公民个人信息罪。

综上，数据爬取行为不但容易引起监管部门的重点关注，也易受到来自竞争对手的诉讼，建议企业在进行数据爬取行为时注意以下要点内容。

本文摘编自《数据合规：入门、实战与进阶》（ISBN：978-7-111-70536-9），经出版方授权发布。