Robots协议法律简析 - 法信 - 懂法，更懂法律人

首页 > 期刊论文 > 法学非核心期刊 > 正文

Robots协议法律简析

期刊名称：《科技创新与知识产权》

期刊年份： 2012年

期号： 11

页码： 31

作者：王永红

作者单位：广东广信律师事务所

学科分类：法律信息

摘要：

关键词：

英文摘要：

英文关键词：

Robots协议法律简析

王永红

广东广信律师事务所

　　2012年8月16日，360综合搜索正式上线。在短短不到一个月的时间里，搜索流量就占据10％，成绩惊人。当然，这首先要得益于其拥有大量用户的360安全卫士、360浏览器等桌面应用。但同时，其违反Robots协议，违规抓取他人后台数据的问题更屡屡遭到各方的质疑和批判。有微博网友zeracker指出360搜索抓取用户账户、密码及订单、优惠码等信息，并晒出图片，图片显示360搜索抓取很多国内知名网游的后台订单、优惠码等敏感记录。其他网友还发现在使用360搜索时，360搜索居然会抓取IBM lotusdomino邮件系统后台和个人邮件文件存储地址。[1]

　　360综合搜索不仅引发了人们对搜索引擎侵犯他人隐私的担忧，也让更多的人把目光投向其中涉及的Robots协议。

　　一、Robots协议简介

　　要想知道什么是Robots协议，首先需要了解搜索引擎的工作原理。当搜索引擎工作时，它会派出一个能够在网上发现新网页并抓文件的程序，即Robot（又称爬虫），这是搜索引擎自动获取网页信息的电脑程序的通称。爬虫程序会从已知的数据库出发，就像正常用户的浏览器一样访问目标网页并抓取文件。与此同时，爬虫程序还会通过“爬行”来跟踪网页中的链接，访问更多的网页，这些新发现的网址都会被存入数据库等待抓取。这些通过爬行和抓取得到的所有网页组成的数据库，是一个搜索引擎的核心，搜索引擎的用户就是以这个数据库为基础进行搜索活动。

　　互联网上的很多网站都是通过吸引用户点击来进行信息传递，从而实现自己的商业目的，因此大部分网站的所有者都希望自己的网站能被搜索引擎抓取，以此大大提高网站的点击率。但是，也有很多网站存放着隐私信息或者敏感信息，这些网站的所有者就不希望自己的网页能够被搜索引擎抓取。为此，这些网站的所有者就需要有方法能够约束Robot程序对网页的抓取。

　　建立Robot协议就是广泛使用的方法之一。将约束爬虫程序的具体方法规范成格式代码，就成了Robots协议。一般来说，网站是通过Robots.txt文件来实现Robots协议。

　　在百度百科里这样描述，Robots.txt是一个协议，而不是一个命令。Robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉爬虫程序在服务器上什么文件是可以被查看的。当一个爬虫程序访问一个站点时，它会首先检查该站点根目录下是否存在Robots.txt，如果存在，爬虫程序就会按照该文件中的内容来确定访问的范围；如果该文件不存在，则所有的爬虫程序将能够访问该网站上所有没有被口令保护的页面。[2]

　　Robots协议主要有三个代码：

　　User-agent：这个代码是说针对哪个或哪些搜索引擎。

　　Disallow：这个代码是说搜索引擎不可以做什么，比如不可以搜索某个或全部目录下的文件，不可以搜索哪些具体的文件或文件类型，等等。

　　Allow：这个代码是说搜索引擎可以做什么，比如可以搜索某个或全部目录下的文件，可以搜索哪些具体的文件或文件类型，等等。

　　举例来说，淘宝网（www.taobao.com）的Robots.txt文件：

　　User-agent: Baiduspider

　　Disallow:／

　　User-agent: baiduspider

　　Disallow:／

　　可以看出，淘宝网不希望百度搜索引擎访问其任何网站内容。

　　而搜狐（www.sohu.com）则没有Robots.txt这个文件，这表明搜狐允许所有的搜索引擎访问其网站的任何内容。

　　又比如，笔者单位的邮箱系统（mail.gxlawyers.com）的Robots.txt文件：

　　User-agent:*

　　Disallow:／

　　可以看出，这个邮箱系统是不希望任何搜索引擎来访问其任何内容的。

　　二、Robots协议的法律效力

　　要讨论Robots协议的效力，需要先看一下它的起源。Robots协议的起源，是在互联网从业人员的公开邮件组里面讨论并且诞生的。1994年6月30日，在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后，正式发布了一份行业规范，即Robots协议。在世界互联网技术邮件组发布后，这一协议被几乎所有的搜索引擎采用，包括最早的altavista,infoseek，后来的google, bing，以及中国的百度，搜狗等公司。[3]

　　但即使是这样，也不能改变Robots协议没有强制力的事实，它并不是一个具有法律强制力的政府或机构所颁布的强制规范，也不要求任何搜索引擎签署任何声明或者合同来受其约束，它主要是通过搜索引擎服务商的自我约束来实现其效力。

作者其他论文

职工出差途中遭受事故伤害是否算工伤之判例研究

浅论保障未成年人刑事诉讼权利的必要性

大数据时代公民隐私权的民法保护

我国精神障碍者非自愿医疗的法律透视——以精神卫生法的出台为背景

笔记