常见的robots.txt文件用法实例_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

常见的robots.txt文件用法实例

常见的robots.txt文件用法实例：

1、禁止所有搜索引擎抓取网站的任何部分

User-agent: *

Disallow: /

这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时，有的会先屏蔽所有蜘蛛抓取。

2、允许所有的spider抓取（或者也可以建一个空的robots.txt文件）

User-agent: *

Allow: /

这是允许所有搜索引擎抓取网站的任何部分，既然是允许所有文件被抓取，可以不用创建robtos.txt文件，即默认全部允许抓取。

3、禁止spider抓取特定目录

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

这是禁止所有的spider抓取a、b、c目录。这个规则我们最常用到，比如网站的程序后台、程序目录等都可以禁止spider抓取，以减少spider无意义的浪费我们的空间资源。

4、禁止spider抓取搜索结果页面

User-agent: *

Disallow: /so_article?*

如果你网站的搜索结果页面URL格式如：/so_article?keyword=搜索关键字，则按以上格式进行屏蔽，注意最后带了一个星号*，代表屏蔽so_article?带头的所有URL。

对于大部分网站，常用的就是以上4种情况。

来源：搜外网

Public @ 2010-05-21 16:09:23

站点地图是一个网站所有链接的容器。很多网站的连接层次比较深，爬虫很难抓取到，站点地图可以方便爬虫抓取网站页面，通过抓取网站页面，清晰了解网站的架构，网站地图一般存放在根目录下并命名sitemap，为爬虫指路，增加网站重要内容页面的收录。站点地图就是根据网站的结构、框架、内容，生成的导航网页文件。站点地图对于提高用户体验有好处，它们为网站访问者指明方向，并帮助迷失的访问者找到他们想看的页面。站点地图

Public @ 2013-03-27 16:11:51

怎样优化URL有利于SEO

优化URL是做SEO的第一步，一个好的URL有这些特点：1、层次越少越好有的URL很深很长层次很多，这种URL就对SEO不是很友好，一个适合SEO的URL应该是3层：第一层域名、第二层定义当前页面属于什么性质、第三层是当前页面的ID。2、分类页采用目录形式，内容页采用内页形式网站的栏目页面、分类页面，采用目录形式的URL，如www.xxx.com/abc；网站的产品页面、新闻页面、内容页面，采用内

Public @ 2015-03-11 16:11:14

禁止搜索引擎收录的方法

以下是禁止搜索引擎收录网站的方法： 1. Robots.txt文件在网站根目录下建立一个名为“robots.txt”的文件，通过添加禁止搜索引擎收录的指令来控制搜索引擎抓取页面的行为。 2. HTML标签在网页头部添加的标记，使其被搜索引擎识别为不允许被收录的页面。 3. 登录权限通过设置网站登录权限，使未登录用户无法访问该网页，从而使搜索引擎无法抓取该页面内容。 4. 封锁I

Public @ 2023-06-26 06:50:17

robots里这样写，就能避免蜘蛛爬这个“index.htm”这个首页？

威海seo专题威海Robots
2044

我robots这样写是不是就能避免蜘蛛爬这个“index.htm”这个首页？User-agent: *Disallow: /index.htm11-30.我的index.htm是现在默认的首页，想屏蔽蜘蛛抓取。让蜘蛛爬另一个文档，主要是规避备案巡查我的网站和我备案的不一样，服务器那边要求改，我就整了个htm文档来规避下。写法没有问题。但正常的不建议屏蔽首页地址，，“index.htm”这个后缀地址

Public @ 2019-12-16 16:09:25

Categories

Tags