如何防范网站信息泄漏-如何防范信息泄露

每天您是否收到数封垃圾邮件，每天您是否接到无数“骚扰”电话，每天您是否会收到数条垃圾短信，也许三个也许中都是肯定，这一切毫无例外都会耗费您生命中的时间，可是您是否曾经深入思考过为什么您老是收到这些“赠品”，其实收到这些赠品的最直接原因就是您的个人信息被泄漏了。网络技术的飞速发展，给生活带来便利的同时，也带来了许多新的问题，网站信息泄漏是个人信息泄漏的一个主要途径之一，而个人信息中的手机、电话、Email等信息又是网络“黑色产业”中最为关键的部分，个人信息泄漏不仅仅给生活带来不便，而如果不良用心的人利用社会工程学等，将给个人带来巨大的经济损失。

写过网站程序以及维护个人(商业)网站的朋友对网站信息泄漏也一定不会陌生，而且还非常头疼，特别是个人客户信息的泄漏。网站信息泄漏的主要原因还是安全问题，本文通过自己切身经历，对个人信息泄漏中的如何删除网页快照、网站信息泄漏途径及其解决方法进行探讨，欢迎有兴趣的朋友一起来进行网站安全等方面的探讨。

(一)网站信息泄漏途径

网站信息泄漏的主要途径有以下三个方面：

1.老板“黑”。

呵呵，写到这里，很多老板都会不满意，嘿嘿，我说的这个“黑”跟黑客的黑有些类似，现在有些(不是全部)提供虚拟主机以及主机托管的ISP服务商会将其客户的商业(个人)网站收集，然后进行出售。据了解有的是出售网站源代码，有的是出售客户信息。需要证明的朋友可以到北京的一些过街天桥上面，会有人出售企业名录、名人名录等。其中中产以上阶层是主要关注对象，比如老板名录，经理名录，车主个人信息(图1)。

图1 个人信息泄漏

验证途径：

(1)“北京16万名新车主个人详细信息被书商公开叫卖”网页访问地址：

[url]http://www.southcn.com/news/community/shzt/privacy/annoyance/200509160468.htm[/url]

2.骇客“黑”。

说这个大家都明白，现在很多骇客都是以商业利益(盗取QQ号、盗取游戏帐号、盗取个人银行帐号等)为重，譬如“熊猫病毒”，就有一条完整的商业体系，而网站是骇客利益首选之地，网站是网页挂马的必经之路。因此骇客会利用一切安全漏洞来对网站进行攻击以获取对网站以及网站服务器的完全控制，而在获得控制后，会对网站信息进行分析，判断是否有商业价值。

3.搜索引擎“黑”。

搜索引擎“黑”跟传统意义上的黑不一样，应该说厉害才是，现在很多搜索引擎例如Google、百度等会将网站的所有网页文件进行抓取，然后形成网页快照，验证方式如下：

(1)在百度搜索引擎搜索框中输入“详细个人信息”然后单击“百度搜索”会出来2600，000多条搜索记录(图2);对比百度在Google中搜索同样关键词，Google搜索引擎一共有，14,800,000条搜索记录(图3)。

图2百度搜索个人信息

图3 Google搜索个人信息

(2)更改搜索关键词，在在百度搜索引擎搜索框中输入“个人详细信息”然后单击“百度搜索”会出来1,150,000多条搜索记录;对比百度在Google中搜索同样关键词，Google搜索引擎一共有15,200,000条搜索记录。

说明：对于收集个人信息的网络高手来说，要收集某一个网站的一些关键信息，可以按照“site:[url]www.somesite.com[/url] 联系方式”等来进行搜索，如果网站程序未进行安全设置，其网站包含联系方式的网页均可浏览。

(3)访问不了网页!在搜索出来的“详细个人信息”中随便选择一条，单击其链接，结果显示为“该网页无法访问”或者“无法显示网页”(图4)，出现这种情况可能是网站管理人员将该网页删除掉了，还有可能就是将网页改名了。

图4 访问不了网页

(4)搜索引擎的网页快照来帮忙。利用百度搜索时其记录中往往会有“百度快照”，而在Google中会有“网页快照”四个灰色的字体，在本例中使用百度快照，单击同条记录的“百度快照”，结果出来了(图5)。

图 5 网页快照

(5)直接显示个人隐私信息。本例中以“详细个人信息喻鳳”为例，通过搜索引擎搜索出来的网页以及网页快照都不能访问，但是搜索引擎还是将个人信息抓取出来了(图6)：喻鳳身份证证件号码： 362229198309142028.电子邮件：fengyu419914@126.com.

图 6 直接显示个人信息

注意：现在国家在推行网络实名制，实名制在使用过程中确实能够解决不少问题，但是一旦这些信息泄漏出去，且被不法分子利用，其后果不堪设想。

(二)删除网页快照

通俗的说，网页快照就是搜索引擎在收录网页时，都会做一个备份，大多是文本的，保存了这个网页的主要文字内容，这样当这个网页被删除或连接失效时，用户可以使用网页快照来查看这个网页的主要内容，由于这个快照以文本内容为主，所以会加快访问速度。在网站信息泄漏中，一个最大的安全隐患就是搜索引擎抓取的网页快照。一般情况下，搜索引擎都不会自动删除网页快照，只要其被搜索引擎收录，其信息就能访问。因此要解决网站信息泄漏问题，其中一个关键的问题就是要删除网页快照。

1.删除百度搜索引擎中的网页快照

(1)网络上无现存解决方法。

我首先在网上搜索“删除网页快照”、“百度”“百度快照”等关键字，结果出来居多“删除网页快照”的提问，我一个个的仔细进行了查看，居然没有解决方法。

(2)跟百度联系。

实在没有办法，我只好到百度的老巢去看看，通过“关于百度”网页找到了百度的一些联系方式(图7)，给Webmaster@baidu.com发了一封求助删除网页快照的邮件，二三天后，管理员给我回信了，告诉我已经删除掉，要一周以后才能生效。

图7 百度联系方式

一周以后我再次进行搜索，结果发现其网页快照还是存在，于是我再次给百度网站管理员发了一份求助邮件，二三天后再次收到回复邮件(图8)，其中提到了“百度搜索帮助”，通过其地址找到了网页(图9)(非常奇怪，在百度网站中居然无法正常看到关于解决该问题的链接:[url]http://www.baidu.com/search/faq_page.html#02[/url]，百度是否不愿意删除网页快照，还是另有原因!!!)。

说明：直接跟百度联系是一种较好的办法，也可以通过百度自己提供的百度对话平台进行沟通，呵呵，上面说还有奖品，不过我没有试过，其访问地址为：

[url]http://utility.baidu.com/quality/quality_form.php?word=%2E[/url]

图 8 邮件回复

图9百度帮助

(3)删除程序文件否则更改链接。

通过研究帮助文件，发现最为快捷和方便的方法是更改网站泄漏文件的名称或者直接删除信息泄漏文件或者更改链接地址。不过该方法需要一个月左右才会生效。

2.删除Google搜索引擎中的网页快照。

(1)使用Google帮助文件

删除Google搜索引擎中的网页快照相对就容易多了，而且在Google的帮助文件中有关于如何删除网页快照的具体方法。具体进入方式为：Google首页->“Google大全”->“搜索帮助”，其中有很多关于删除网页快照的解决方法，详细地址为：

https://www.google.com/support/bin/answer.py?answer=61808&hl=zh_CN

说明：个人觉得老外就是比较严谨，会注意很多细节，不像国人，很多都是表面工程，不办实际事情。

(2)使用Google网站管理员工具

Google提供的网站管理员工具使用起来非常方便，不过使用它来管理需要两个前置条件：首先需要拥有Google帐号或者Gmail帐号，其次需要在需要删除网页快照的网站首页的Html代码中的第一个head处添加Google的验证标识。验证成功后即可进行网站网页快照的管理(图10)。网站管理员工具中还可以对rotbots文件、网站地图、网站链接等进行管理。

图10 Google网站管理员工具

说明：Google网站管理员工具可以有选择的从 Google 搜索结果中删除内容，删除在 6 个月内有效。可以删除以下内容：

l 单个网址：网页、图片或其他文件，删除过期或被拦截的网页、图片和其他文档，使其不再出现在 Google 搜索结果中。

l 网站上的目录及所有子目录，删除网站上指定目录内的所有文件和子目录，使其不再出现在 Google 搜索结果中。

l 整个网站，从 Google 搜索结果中删除网站。

l Google 搜索结果的缓存复本，对已经过期或您已添加无存档元标记的网页，删除其缓存复本和网页说明。

总之在Google管理员工具中最为方便的就是管理员可以自由选择删除网站内容，可以删除整个网站，可以是网站链接，可以是文字等等(图11)，可以依据其相应的提示进行操作，非常方便。

图11 删除快照

网站管理员工具地址：

[url]https://www.google.com/accounts/ServiceLogin?service=sitemaps&continue=https://www.google.com%2Fwebmasters%2Ftools%2Fsiteoverview%3Fhl%3Dzh_CN%3Fhl%3Dzh_CN&nui=1&hl=zh-CN[/url]

3.编写自己的robots.txt

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，那么搜索机器人就沿着链接抓取。另外，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。Robots.txt编写很简单，网上有很多关于这方面的资料，我就不赘述了。只列举几个常用的例子供大家使用。

(1)禁止所有搜索引擎访问网站的任何部分。

User-agent: *

Disallow: /

(2)只允许访问searchhistory目录

User-agent: *

Allow: /searchhistory/

Disallow: /

(3)禁止所有搜索引擎访问网站的01、02、03目录

User-agent: *

Disallow: /01/

Disallow: /02/

Disallow: /03/ www.2cto.com

(4)禁止BadBot搜索引擎的访问

User-agent: BadBot

Disallow: /

(5)只允Crawler搜索引擎的访问

User-agent: Crawler

Disallow:

User-agent: *

Disallow: /

说明：本人在自己的网站上面加上robots后，Google网页快照就消失了。

(三)网站信息泄漏堵漏

1.加强程序安全

在程序早期，很多程序员都没有考虑到搜索引擎会自动抓取网站中的网页，因此对于安全方面没有做访问限制，一个好的方法就是对网页进行授权访问，例如只有登陆以后的用户可以访问某一些网络资源，而对于普通用户则禁止访问。以asp编程语言为例，可以新建一个checklogin.asp的网页文件，然后在其中输入：

if Session("MySystem_LoginUser")="" then

response.redirect " Login.asp"

end if

在网站需要进行限制访问的网页程序中包含该网页即可。

说明：本例只是提出一种简单实现方法，其实限制访问网络资源有很多好方法，当然程序中也得考虑其他安全，例如SQL注入漏洞问题。

2．及时跟Google、百度等搜索引擎联系，删除存在泄漏的网站信息

3．涉及个人隐私信息的内容和网页时，一定要对安全多加考虑。

（四）结束语

本文对网站信息泄漏，主要是个人信息问题进行了探讨，并就泄漏中的网页快照删除问题给出了一些解决方法。网络的安全问题从来都是相对的，没有绝对的安全，安全重在安全思想意识，欢迎跟大家一起进行网路安全方面的探讨。