E X P
  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    Google于今天早些时候宣布了要推动机器人例外协议标准化。可能用正式名称叫它大家都有些陌生,但是一定有很多人听过robots.txt这个文件,robos.txt这个文件存在于几乎所有网站的根目录下,它规定了网络爬虫可以爬取的目录地址,但它一直都不是一个标准的文件。

    25年前,Martijn Koster,这位互联网最早的搜索引擎创始人,在他的网站被爬虫频繁光顾到无法访问之后,编写了这个文件,制定了一个叫做机器人例外的协议(Robots Exclusion Protocol),在文件中规定了爬虫不能读取的网站目录。REP目前已经成为了互联网最基础的协议之一,搜索引擎的爬虫通过分析这个文件了解网站所有者的规定,更规范地来爬取网站内容。

    然而至今为止,这个协议都只是一个非官方、非标准化的协议,robots.txt的内容怎么写完全是随网站管理者的性子来,这对于互联网长远的发展是不利的。同时Google开源了他们使用了二十年之久的robots.txt解析库,没有一个确定标准的robots.txt对于要解析它的爬虫也是一件麻烦的事情,往往会因为内容太复杂太多而解析失败,致使爬虫没能遵守该网站的规定爬取了敏感信息,发生各种信息泄露事件,影响到网站的正常运行与安全。

    而Google制定出来的REP协议草案反应了20多年来互联网世界的发展与变迁,它没有改变从1994年以来规定的条条框框,但是更清晰地描述了爬虫可能会遇到的场景,并使协议更为现代化。Google表示,目前的草案已经接近向IETF组织提交,但是还需要一些改进。毫无疑问,这是对互联网总体有利的一件好事,未来在标准化之后的REP协议加持下,我们可能可以获得更好的搜索结果。


    ×
    热门文章
    已有 8 条评论,共 45 人参与。
    登录快速注册 后发表评论
    • 超能网友博士 2019-07-05 16:00    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      9#

    • 超能网友博士 2019-07-03 21:09    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      8#

    • 游客  2019-07-03 14:30

      游客

      该评论年代久远,荒废失修,暂不可见。
      2019-07-02 13:06 已有5次举报
    • 支持(2)  |   反对(11)  |   举报  |   回复
    • 该评论年代久远,荒废失修,暂不可见。

      支持(4)  |   反对(0)  |   举报  |   回复

      7#

    • 游客  2019-07-02 16:37

      该评论年代久远,荒废失修,暂不可见。

      支持(2)  |   反对(1)  |   举报  |   回复

      6#

    • 超能网友一代宗师 2019-07-02 14:21    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      支持(4)  |   反对(0)  |   举报  |   回复

      5#

    • 游客  2019-07-02 13:58

      游客

      该评论年代久远,荒废失修,暂不可见。
      2019-07-02 13:06 已有5次举报
    • 支持(2)  |   反对(11)  |   举报  |   回复
    • 该评论年代久远,荒废失修,暂不可见。

      支持(8)  |   反对(0)  |   举报  |   回复

      3#

    • 游客  2019-07-02 13:06

      该评论年代久远,荒废失修,暂不可见。

      已有5次举报

      支持(2)  |   反对(11)  |   举报  |   回复

      2#

    • 游客  2019-07-02 12:55

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      1#

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明