王永红
广东广信律师事务所
2012年8月16日,360综合搜索正式上线。在短短不到一个月的时间里,搜索流量就占据10%,成绩惊人。当然,这首先要得益于其拥有大量用户的360安全卫士、360浏览器等桌面应用。但同时,其违反Robots协议,违规抓取他人后台数据的问题更屡屡遭到各方的质疑和批判。有微博网友zeracker指出360搜索抓取用户账户、密码及订单、优惠码等信息,并晒出图片,图片显示360搜索抓取很多国内知名网游的后台订单、优惠码等敏感记录。其他网友还发现在使用360搜索时,360搜索居然会抓取IBM lotusdomino邮件系统后台和个人邮件文件存储地址。
[1]
360综合搜索不仅引发了人们对搜索引擎侵犯他人隐私的担忧,也让更多的人把目光投向其中涉及的Robots协议。
一、Robots协议简介
要想知道什么是Robots协议,首先需要了解搜索引擎的工作原理。当搜索引擎工作时,它会派出一个能够在网上发现新网页并抓文件的程序,即Robot(又称爬虫),这是搜索引擎自动获取网页信息的电脑程序的通称。爬虫程序会从已知的数据库出发,就像正常用户的浏览器一样访问目标网页并抓取文件。与此同时,爬虫程序还会通过“爬行”来跟踪网页中的链接,访问更多的网页,这些新发现的网址都会被存入数据库等待抓取。这些通过爬行和抓取得到的所有网页组成的数据库,是一个搜索引擎的核心,搜索引擎的用户就是以这个数据库为基础进行搜索活动。
互联网上的很多网站都是通过吸引用户点击来进行信息传递,从而实现自己的商业目的,因此大部分网站的所有者都希望自己的网站能被搜索引擎抓取,以此大大提高网站的点击率。但是,也有很多网站存放着隐私信息或者敏感信息,这些网站的所有者就不希望自己的网页能够被搜索引擎抓取。为此,这些网站的所有者就需要有方法能够约束Robot程序对网页的抓取。
建立Robot协议就是广泛使用的方法之一。将约束爬虫程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。
在百度百科里这样描述,Robots.txt是一个协议,而不是一个命令。Robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉爬虫程序在服务器上什么文件是可以被查看的。当一个爬虫程序访问一个站点时,它会首先检查该站点根目录下是否存在Robots.txt,如果存在,爬虫程序就会按照该文件中的内容来确定访问的范围;如果该文件不存在,则所有的爬虫程序将能够访问该网站上所有没有被口令保护的页面。
[2]
Robots协议主要有三个代码:
User-agent:这个代码是说针对哪个或哪些搜索引擎。
Disallow:这个代码是说搜索引擎不可以做什么,比如不可以搜索某个或全部目录下的文件,不可以搜索哪些具体的文件或文件类型,等等。
Allow:这个代码是说搜索引擎可以做什么,比如可以搜索某个或全部目录下的文件,可以搜索哪些具体的文件或文件类型,等等。
举例来说,淘宝网(www.taobao.com)的Robots.txt文件:
User-agent: Baiduspider
Disallow:/
User-agent: baiduspider
Disallow:/
可以看出,淘宝网不希望百度搜索引擎访问其任何网站内容。
而搜狐(www.sohu.com)则没有Robots.txt这个文件,这表明搜狐允许所有的搜索引擎访问其网站的任何内容。
又比如,笔者单位的邮箱系统(mail.gxlawyers.com)的Robots.txt文件:
User-agent:*
Disallow:/
可以看出,这个邮箱系统是不希望任何搜索引擎来访问其任何内容的。
二、Robots协议的法律效力
要讨论Robots协议的效力,需要先看一下它的起源。Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即Robots协议。在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google, bing,以及中国的百度,搜狗等公司。
[3]
但即使是这样,也不能改变Robots协议没有强制力的事实,它并不是一个具有法律强制力的政府或机构所颁布的强制规范,也不要求任何搜索引擎签署任何声明或者合同来受其约束,它主要是通过搜索引擎服务商的自我约束来实现其效力。