1个月，570万起恶意爬虫行为！瑞数信息一招整治金融爬虫！-51CTO.COM

大数据时代，数据是市场竞争的重要资源，因此利用网络爬虫恶意爬取数据的事件频繁发生。今年上半年，某银行电子结算中心承建的线上征信平台“某某融”，就遭到了恶意爬虫的疯狂“洗劫”。

某金融征信平台疑似遭爬虫疯狂“洗劫”

“某某融”平台是中小微企业信用信息和融资对接平台，目的是实现资金供需双方线上高效对接，提高企业金融服务的可得性、覆盖率和满意度，目前已接入207家银行机构的1.3万个网点，注册企业155万家。

根据相关规定，“某某融”平台向辖内各商业银行免费提供信息查询服务，但只允许商业银行以人工访问方式进行逐条信息查询。然而，“某某融”平台的技术人员却发现，每天一到凌晨，系统后台就出现了大量的查询请求，并持续整个后半夜，但到底是谁在查询却对不上号。

很显然，这并不是正常的用户行为，更像是利用自动化工具的恶意爬虫行为。一旦被恶意爬虫盯上，平台很可能会遭遇敏感数据泄露，导致大量企业和用户利益受损，影响金融机构的公众威望。此外，大量爬虫恶意数据请求会不断霸占业务服务器性能，影响平台的正常运行，从而导致用户体验下降，为平台的安全运营带来了极大的挑战。

为此，“某某融”平台火速搬来了救兵——业内知名的Bots自动化攻击防护专业厂商瑞数信息，誓要抓出潜伏在黑暗中的恶意爬虫。

瑞数信息“反爬虫”之战

瑞数信息第一时间为“某某融”平台部署了一款“反爬虫利器”——瑞数动态应用保护系统 Botgate。

此系统以瑞数信息独创的“动态防护”技术为核心，不基于任何特征、规则及阈值的方式进行防护，能够有效识别和防御自动化攻击。具体而言，有4大技术能力：

l 动态令牌：对当前页面内的合法请求地址授予一定时间内有效的动态令牌，并为每个客户端生成不依赖于设备特征的唯一标识。令牌的动态变换，加上客户端唯一标识，就如同身份证一样难以伪造，可以阻拦非法的自动化攻击请求。

l 人机识别：通过动态令牌、客户端环境检测、客户端行为识别等方式，验证浏览器/APP的真实性，检查动作的真实性，实现对访问客户端的人机识别，从而阻拦自动化攻击行为。

l 代码混淆封装：灵活运用Web代码混淆、JS混淆、前端反调试、Cookie混淆、中间人检测等多种功能，对页面逻辑、代码、内容关键元素等进行混淆封装，对自动化攻击进行动态干扰，防止业务被逆向分析。

l 威胁透视：利用独有的全程式业务威胁感知和智能分析技术，以及内置的通用自动化威胁模型，准确透视细粒度的机器人行为，为精准判定自动化攻击提供有效威胁数据。

基于动态应用保护系统Botgate，瑞数信息很快发现“某某融”平台的不动产、备案等系统，在一个月的时间内遭遇了570多万起自动化恶意爬虫行为，已占据了正常请求的近1/4。

进一步分析发现，恶意爬虫为了登录账号，利用了弱密码、暴力破解等方式，并大量使用自动化工具，非法查看敏感数据。

检测数据显示，爬虫账号高达172个，异常IP有90个。其中，涉及简单脚本的IP 90个，重放攻击的IP 72个，破解行为的IP 48个，调试行为的IP 25个，高级自动化工具的IP 13个。

从非工作时间业务查询行为看，凌晨0点至6点期间存在产权查册发起页面加载、发起产权查册查询、产权查册历史查询记录、查看产权查册明细的行为。

总体而言，“某某融”平台已被恶意爬虫“洗劫”，面临着账号滥用、自动化工具滥用、非工作时间高频访问、业务逻辑被逆向分析、敏感数据被滥用等多重业务安全问题。

对此，瑞数信息根据“某某融”平台业务需求，定制了灵活的防护策略：既可以针对异常IP和行为进行自动化拦截、按比例拦截，也可以对频繁访问请求做延迟，或发起二次动态挑战，还可以限定特定IP超过一定时间不能访问等等，在保护数据安全的同时也不影响业务的正常运转。

整治金融爬虫需要“动态安全”新技术

“某某融”平台爬虫事件其实并非个例。恶意数据爬虫攻击是自动化攻击请求中占比最大的一类，金融、互联网、政企、医疗卫生、教育等行业，都遭受着持续不间断的爬虫访问。瑞数信息《2022 Bots自动化威胁报告》显示，2021年根据瑞数信息监测到的恶意爬虫攻击达到1000亿+以上。

近年来，随着互联网金融服务体系的快速增长，越来越多的金融业务构建在Web、H5、App、API、微信和小程序等多种业务渠道上，应用敞口风险暴露面随之增大，各类变化多端的爬虫攻击也趁虚而入，导致企业数据泄露风险加剧。

据瑞数信息技术专家介绍，在金融行业，交易、支付、信贷、营销等业务场景都是爬虫攻击的重灾区。比如，爬取企业征信报告，盗取用户个人网银、交易支付记录、信用卡账单等，都是为了获取敏感数据以博取高额利润。

尽管爬虫带来了巨大的业务安全风险，但为何金融行业的恶意爬虫屡禁不止？

瑞数信息技术专家表示，爬虫技术多年来一直在不断演进，不仅精通各种代码语言，甚至在使用机器学习等AI技术，不断挑战着现有防护体系，由此带来了三大防护难点：

第一，恶意爬虫使用了大量高级自动化工具，能够不断变化自身来源，以多源低频的方式，绕过传统规则库；

第二，恶意爬虫能够伪造UA信息，不断变化环境信息，骗过传统特征库；

第三，恶意爬虫使用了高度拟人化的武器库，通过资源链接、相互调用，能够发起模拟真人的操作行为，迷惑现有的风控规则。

瑞数信息技术专家指出，爬虫技术的快速迭代升级，导致依赖规则、特征的传统安全技术和风控技术都无力应对，金融机构必须寻求新的技术方案才能对抗新的爬虫技术。正因如此，“动态安全”作为一种颠覆传统安全被动式防御的新技术，创新地提出动态防御、主动防御概念，成为新时代反爬虫的理想选择。

作为“动态安全”技术的首创者，瑞数信息推出的第一款产品就是“瑞数动态应用保护系统Botgate”，由于能够高效甄别伪装和假冒正常行为的各类已知和未知自动化攻击，并能够进行有效的阻断防护，因此Botgate称得上是一款高效反爬虫的利器。

除此之外，瑞数信息还将“动态安全”技术和AI技术融合起来，涵盖了机器学习、智能人机识别、智能威胁检测、全息设备指纹、智能响应等AI技术，对客户端到服务器端所有的请求日志进行全访问记录，持续监控并分析流量行为，实现精准攻击定位和追踪溯源，并对潜在和更加隐蔽的攻击行为进行更深层次的分析和挖掘，这将更加精准、持续的对抗恶意爬虫带来的自动化攻击。

结语

金融服务数据正受到空前的关注，对数据的争夺所引发的安全对抗也愈加激烈。面对恶意爬虫技术的不断升级，金融机构亟需转向以“动态安全”为核心的新安全技术，提高对自动化工具访问的识别能力，提升自身系统的数据安全能力，建立起数据反爬的铜墙铁壁。