Categories


Tags


通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀

通过网站日志分析,会发现搜索引擎蜘蛛抓取了一些网站上不存在的文件后缀,如:.php、.asp、.aspx等。

搜外网站后台日志分析结果如下图:

image.

搜外主站实际上不存在php后缀的URL地址。

可通过robots.txt文件禁止蜘蛛抓取不存在的后缀,减少出现404返回值。

在robots.txt文件填写屏蔽规则如下:

Disallow: /*.asp$

Disallow: /*.php$

Disallow: /*.aspx$

注意前面一个*,后面一个$,代表后缀。

参考搜外的robots.txt文件写法,点击这里

来源:搜外网


Public @ 2015-07-18 16:09:24

站点地图的重要性

站点地图是一种网站页面,它列出了所有网站页面的链接列表,以方便用户查找和导航网站。站点地图包含的信息包括网站的结构,主要链接,页面层次结构,重要更新等。以下是站点地图的几个重要性: 1. 改善用户体验:站点地图为用户提供了一个完整的网站目录,使他们能够轻松地浏览网站并查找所需信息。 2. 提高搜索引擎优化:搜索引擎爬虫可以更轻松地索引站点地图。站点地图是向搜索引擎发送网站的重要信号。 3.

Public @ 2023-04-29 19:00:10

关于Sitemap

百度一直致力于将优质内容索引并呈现给搜索用户,因此百度站长平台推出了Sitemap工具,网站可通过该工具将优质资源主动反馈提交给百度站长平台,加强百度对优质资源的收录,优化收录效果。Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页,包括百度通过传统抓取方式可能找不到的网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次

Public @ 2011-06-13 16:11:59

robots.txt使用教程

robots.txt 是一个文本文件,用于指示搜索引擎爬虫哪些页面可以被抓取,哪些页面不应该被抓取。在建立一个网站时,可以通过 robots.txt 控制搜索引擎爬虫对网站的访问,以达到更好的SEO效果。以下是robots.txt的使用教程。 步骤1:新建 robots.txt 文件 在网站的根目录下,新建一个名为 robots.txt 的文本文件。 步骤2:编辑 robots.txt 文件

Public @ 2023-04-18 01:00:34

更多您感兴趣的搜索

0.488674s