用了二十多年了，Google终于开始推进这个互联网基石之一的协议标准化

拼命加载中 ...

Google于今天早些时候宣布了要推动机器人例外协议标准化。可能用正式名称叫它大家都有些陌生，但是一定有很多人听过robots.txt这个文件，robos.txt这个文件存在于几乎所有网站的根目录下，它规定了网络爬虫可以爬取的目录地址，但它一直都不是一个标准的文件。

25年前，Martijn Koster，这位互联网最早的搜索引擎创始人，在他的网站被爬虫频繁光顾到无法访问之后，编写了这个文件，制定了一个叫做机器人例外的协议（Robots Exclusion Protocol），在文件中规定了爬虫不能读取的网站目录。REP目前已经成为了互联网最基础的协议之一，搜索引擎的爬虫通过分析这个文件了解网站所有者的规定，更规范地来爬取网站内容。

然而至今为止，这个协议都只是一个非官方、非标准化的协议，robots.txt的内容怎么写完全是随网站管理者的性子来，这对于互联网长远的发展是不利的。同时Google开源了他们使用了二十年之久的robots.txt解析库，没有一个确定标准的robots.txt对于要解析它的爬虫也是一件麻烦的事情，往往会因为内容太复杂太多而解析失败，致使爬虫没能遵守该网站的规定爬取了敏感信息，发生各种信息泄露事件，影响到网站的正常运行与安全。

而Google制定出来的REP协议草案反应了20多年来互联网世界的发展与变迁，它没有改变从1994年以来规定的条条框框，但是更清晰地描述了爬虫可能会遇到的场景，并使协议更为现代化。Google表示，目前的草案已经接近向IETF组织提交，但是还需要一些改进。毫无疑问，这是对互联网总体有利的一件好事，未来在标准化之后的REP协议加持下，我们可能可以获得更好的搜索结果。

已有 8 条评论，共 45 人参与。

请登录或快速注册后发表评论

超能网友博士 2019-07-05 16:00 | 加入黑名单

该评论年代久远，荒废失修，暂不可见。
已有0次举报
支持(0) | 反对(0) | 举报 | 回复

9#

超能网友博士 2019-07-03 21:09 | 加入黑名单

该评论年代久远，荒废失修，暂不可见。
已有0次举报
支持(0) | 反对(0) | 举报 | 回复

8#

游客 2019-07-03 14:30

游客
该评论年代久远，荒废失修，暂不可见。
2019-07-02 13:06 已有5次举报
支持(2) | 反对(11) | 举报 | 回复
该评论年代久远，荒废失修，暂不可见。
已有0次举报
支持(4) | 反对(0) | 举报 | 回复

7#

游客 2019-07-02 16:37

该评论年代久远，荒废失修，暂不可见。
已有0次举报
支持(2) | 反对(1) | 举报 | 回复

6#

超能网友一代宗师 2019-07-02 14:21 | 加入黑名单

该评论年代久远，荒废失修，暂不可见。
已有0次举报
支持(4) | 反对(0) | 举报 | 回复

5#

游客 2019-07-02 13:58

游客
该评论年代久远，荒废失修，暂不可见。
2019-07-02 13:06 已有5次举报
支持(2) | 反对(11) | 举报 | 回复
该评论年代久远，荒废失修，暂不可见。
已有0次举报
支持(8) | 反对(0) | 举报 | 回复

3#

游客 2019-07-02 13:06

该评论年代久远，荒废失修，暂不可见。
已有5次举报
支持(2) | 反对(11) | 举报 | 回复

2#

游客 2019-07-02 12:55

该评论年代久远，荒废失修，暂不可见。
已有0次举报
支持(0) | 反对(0) | 举报 | 回复

1#

请登录后发表评论，若无帐号可快速注册，请留意评论奖罚说明。

用了二十多年了，Google终于开始推进这个互联网基石之一的协议标准化

倪嘉声发布于 2019-7-2 12:02

超能网友博士 2019-07-05 16:00 | 加入黑名单

该评论年代久远，荒废失修，暂不可见。

支持(0) | 反对(0) | 举报 | 回复

9#

超能网友博士 2019-07-03 21:09 | 加入黑名单

该评论年代久远，荒废失修，暂不可见。

支持(0) | 反对(0) | 举报 | 回复

8#

游客 2019-07-03 14:30

游客该评论年代久远，荒废失修，暂不可见。 2019-07-02 13:06 已有5次举报 支持(2) | 反对(11) | 举报 | 回复 该评论年代久远，荒废失修，暂不可见。

游客

支持(4) | 反对(0) | 举报 | 回复

7#

游客 2019-07-02 16:37

该评论年代久远，荒废失修，暂不可见。

支持(2) | 反对(1) | 举报 | 回复

6#

超能网友一代宗师 2019-07-02 14:21 | 加入黑名单

该评论年代久远，荒废失修，暂不可见。

支持(4) | 反对(0) | 举报 | 回复

5#

游客 2019-07-02 13:58

游客该评论年代久远，荒废失修，暂不可见。 2019-07-02 13:06 已有5次举报 支持(2) | 反对(11) | 举报 | 回复 该评论年代久远，荒废失修，暂不可见。

游客

支持(8) | 反对(0) | 举报 | 回复

3#

游客 2019-07-02 13:06

该评论年代久远，荒废失修，暂不可见。

支持(2) | 反对(11) | 举报 | 回复

2#

游客 2019-07-02 12:55

该评论年代久远，荒废失修，暂不可见。

支持(0) | 反对(0) | 举报 | 回复

1#

游客
该评论年代久远，荒废失修，暂不可见。
2019-07-02 13:06 已有5次举报
支持(2) | 反对(11) | 举报 | 回复
该评论年代久远，荒废失修，暂不可见。

游客
该评论年代久远，荒废失修，暂不可见。
2019-07-02 13:06 已有5次举报
支持(2) | 反对(11) | 举报 | 回复
该评论年代久远，荒废失修，暂不可见。