Categories


Tags


robots.txt:如何让搜索引擎不要抓取没用的页面

| 什么是robots文件?

Robots是站点与spider沟通的重要渠道,是网站与搜索引擎爬虫之间的协议,告知哪些可抓取哪些不允许。

| 为什么要做robots文件?

网站上总有一些页面是禁止蜘蛛抓取的。例如:搜索页面、筛选页面、后台登录地址等。

| 如何制作 robots文件?

编写robots.txt文件并上传到网站根目录。

| 制作 robots.txt注意事项

● 所有搜索引擎则用星号表示

● Allow(允许)和Disallow(不允许)优先级

● 至少屏蔽一个,可以屏蔽:搜索结果页面/404页面

● 记得将sitemap放到Robots文件中

● 可以陆续放入更多,而不是一次性决定所有

● 网站后台地址/图片地址/下载文件地址/错误链接(搜外网)


Public @ 2019-03-13 16:09:27

Nofollow

nofollow 是HTML页面中a标签的属性值。这个标签的意义是告诉搜索引擎"不要追踪此网页上的链接或不要追踪此特定链接"。nofollow是HTML页面中a标签的属性值。它的出现为网站管理员提供了一种方式,即告诉搜索引擎"不要追踪此网页上的链接"或"不要追踪此特定链接"。这个标签的意义是告诉搜索引擎这个链接不是经过作者信任的,所以这个

Public @ 2009-03-10 16:08:53

从基础到精通:认识网站301重定向的那些事

301重定向是一种常见的网站管理技术,它允许网站管理员将一个页面的URL重定向到另一个页面的URL上。这种技术的主要目的是帮助网站维护者将旧的、无用的或已删除的网页指向新的、有用的或更新的网页上,从而保证网站上的链接和搜索结果都能得到正确的指引。 以下是关于301重定向的一些基础知识: 1. 301重定向与302重定向的区别 301重定向是一种永久重定向,它会告诉搜索引擎和其他网站,被重定向

Public @ 2023-06-06 03:50:30

robots.txt文件放在哪里?

robots.txt文件放在哪里?robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。网站 URL相应的 robots.txt的 URLhtt

Public @ 2017-01-09 16:08:57

robots里这样写,就能避免蜘蛛爬这个“index.htm”这个首页?

要避免搜索引擎蜘蛛爬取某个页面,可以在robots.txt文件中添加如下指令: User-agent: * Disallow: /index.htm 这样,所有搜索引擎蜘蛛都不会爬取网站的index.htm首页页面。注意,这并不代表该页面会从搜索结果中彻底移除,因为即使没有被索引,用户仍然可以在搜索结果中找到该页面。

Public @ 2023-06-09 00:50:07

更多您感兴趣的搜索

0.523056s