Categories


Tags


巧用robots文件管理引导搜索引擎蜘蛛对网站的抓取

许多年前,让网站被搜索引擎选中包括填写表格,注册该网站,并手动编辑希望该网站被搜索的关键词,这个过程随着搜索引擎网络爬虫或网络蜘蛛的出现而改变。本文就robots相关内容,做详细的介绍。

什么是搜索引擎蜘蛛?

搜索引擎蜘蛛是一种自动程序,它沿着从一个网页到另一个网页的链接在互联网上爬行,为内容编制索引并将其添加到数据库中。这意味着,只要网站有一个来自其他网站且搜索引擎已经知道的链接,然后它会找到随着时间的推移。链接到站点越多,发生这种情况的速度就越快。

不幸的是,这些蜘蛛可以非常密集地访问网站。这是因为他们加载每个页面和文件,以便为数据库编目。蜘蛛会导致虚拟专用数据库负载过高,可能会给访问者带来问题。为了帮助解决这些负载问题,有一种标准化的方法来控制这些爬虫的行为,方法是将名为robots.txt的文件放在网站的根目录中。但是,没有任何强制遵守此文件的内容。所以,虽然大多数网络搜索引擎爬虫会服从它,但有些爬虫可能不会。

robots.txt文件有特定的形式,请看以下示例:

User-agent: googlebot

Disallow: /images

Allow: /images/metadata

crawl-delay: 2

sitemap: /sitemap.xml

按顺序查看每个指令行:

首先从“User-agent”(用户代理)行开始:机器人或网络浏览器将使用用户代理来标识自身,而各种搜索引擎爬虫将拥有自己的用户代理。遵循“User-agent”指令的任何其他指令将仅对给定的用户代理有效。带星号(*)的用户代理将被视为引用所有用户代理。在示例文件中,该指令与googlebot搜索引擎蜘蛛程序相关。

“Disallow”(禁止)指令用于告诉搜索引擎蜘蛛程序有关不加载的目录或文件。需要注意的是,尽管搜索引擎蜘蛛不会加载文件,如果它跟踪到它们的链接,它仍然会在搜索结果中列出这些文件。因此,它不能用来阻止页面出现在搜索结果中。“Disallow”可能是所有搜索引擎蜘蛛都支持的唯一指令。因此在示例中,不允许爬行/images目录。

“Allow”(允许)指令可用于指定搜索引擎蜘蛛可以加载的禁止目录中的文件或目录。虽然并不是所有的搜索引擎蜘蛛都支持这个指令,但大多数蜘蛛都支持。在示例中,允许蜘蛛加载 /images/metadata目录中的文件。

下一个指令是“crawl-delay”(爬行延迟),惠州网站建设它以秒为单位给出蜘蛛在加载下一页之前将等待的数字。这是降低蜘蛛速度的最好方法,尽管可能不想让数字太高,除非站点上只有很少的页面,因为这将极大地限制蜘蛛每天可以加载的页面数量。

最后,是“sitemap”(网站地图)指令,可以将蜘蛛引导到网站的XML网站地图文件,它也可以用来帮助网站进行索引。

控制搜索引擎蜘蛛

在robots.txt中可以填充尽可能多或很少的用户代理,以控制访问站点的方式。对于所有蜘蛛来说,从一个用户代理区开始,然后为特定的蜘蛛添加单独的部分是有意义的,因为它们可能会给站点带来问题。创建了robots.txt之后,就需要对它进行测试,以确保它是有效的。如果语法中出现输入错误或拼写错误,则可能会导致蜘蛛忽略正在设置的规则。幸运的是,有很多测试它的工具,还有一些主要的搜索引擎,比如谷歌提供的测试工具。(来源:夫唯seo特训营)


Public @ 2017-11-23 16:09:28

头条搜索Robots匹配说明

头条搜索Robots匹配说明是指在头条搜索引擎中,用户输入的搜索关键词与已经编写好的机器人规则进行匹配,用以判断搜索结果的排序和展示方式。这些机器人规则是由头条搜索建立的算法模型,通过对用户的搜索历史、搜索习惯、查询的信息内容等多方面的分析,提供给用户最符合其需求的搜索结果。Robots匹配在很大程度上影响用户在头条搜索引擎中的搜索体验和结果准确性。

Public @ 2023-04-05 00:50:10

什么是HTML版本网站地图?网站地图有什么作用?

HTML版本网站地图指的是一种包含网站所有页面的列表,可以直接在网站上进行访问和浏览的网页。它以HTML标记语言格式编写,被搜索引擎和爬虫程序识别,方便这些程序对网站内部链接结构的探索和索引。 网站地图主要有以下作用: 1.帮助搜索引擎和爬虫程序更好地索引网站,提高网站在搜索引擎中的排名; 2.方便用户快速找到需要的信息,提高用户体验; 3.展示网站的结构和内容,提升网站的可视性和可访问性

Public @ 2023-03-28 22:00:20

robots里这样写,就能避免蜘蛛爬这个“index.htm”这个首页?

我robots这样写是不是就能避免蜘蛛爬这个“index.htm”这个首页?User-agent: *Disallow: /index.htm11-30.我的index.htm是现在默认的首页,想屏蔽蜘蛛抓取。让蜘蛛爬另一个文档,主要是规避备案巡查我的网站和我备案的不一样,服务器那边要求改,我就整了个htm文档来规避下。写法没有问题。但正常的不建议屏蔽首页地址,,“index.htm”这个后缀地址

Public @ 2019-12-16 16:09:25

头条搜索Robots匹配说明

在今日头条中,根据用户输入的关键字进行搜索,系统针对关键字进行多维度搜索,内容形成聚合后,统一展示给用户。同时,今日头条采用了多种Robot来爬取和抓取用户的相关关键字,然后精确的匹配给用户,技术上主要是Robot学习算法,和文本分析算法。 Robot算法主要是爬取网站上的关键字,并根据搜索词语进行匹配。Robot算法还可以根据语义分析算法来进行分析和匹配,优化搜索效果。Robot算法也可以

Public @ 2023-02-26 03:54:31

更多您感兴趣的搜索

0.543540s