Categories


Tags


通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀

通过网站日志分析,会发现搜索引擎蜘蛛抓取了一些网站上不存在的文件后缀,如:.php、.asp、.aspx等。

搜外网站后台日志分析结果如下图:

image.

搜外主站实际上不存在php后缀的URL地址。

可通过robots.txt文件禁止蜘蛛抓取不存在的后缀,减少出现404返回值。

在robots.txt文件填写屏蔽规则如下:

Disallow: /*.asp$

Disallow: /*.php$

Disallow: /*.aspx$

注意前面一个*,后面一个$,代表后缀。

参考搜外的robots.txt文件写法,点击这里

来源:搜外网


Public @ 2015-07-18 16:09:24

nofollow常见问题解答

“nofollow” 标签是Google、Yahoo和微软公司前几年一起提出的一个标签,链接加上这个标签后就不会被计算权值,搜索引擎支持nofollow属性,在很大程度上抑制博客或论坛的垃圾留言。对站长来说是一件大好事。下面卢松松就整理了一些nofollow的常见问题。nofollow常见问题解答 SEO优化 网站优化 SEO推广 第1张这个标签通常是用在博客的评论或论坛帖子中,因为这些地方是最多

Public @ 2011-05-03 16:08:48

首页链接的优化

在网络营销实战密码读者交流网站上,一个朋友问了一个关于首页链接的问题:关于网站的逻辑结构,应该是和树型物理结构相吻合,也就是也就是由首页到末端的发散,但是和物理结构不一样的是,每个频道和内容页都应该链接回主页,以加重主页的权重。使得整个网站的权重呈金字塔分布。而在导航中不同频道的链接文字描述应该准确描述该栏目的内容,这是很容易理解的。但是我感觉在大多数的网站中,链回主页的文字基本都是 “主页”,“

Public @ 2016-09-21 16:11:24

禁止搜索引擎收录的方法

禁止搜索引擎收录的方法什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分

Public @ 2016-10-21 16:09:20

哪些网站的目录需求运用robots.txt文件制止抓取

1. 银行和金融机构的网站,因为这些网站可能包含敏感信息,例如客户的个人和财务信息。 2. 医疗保健机构的网站,因为这些网站可能包含个人医疗信息。 3. 艺术、音乐和影片网站,因为这些网站可能包含受版权法保护的内容。 4. 政府网站,特别是警察局和情报机构的网站,因为这些机构的网站可能包含安全敏感信息。 5. 搜索引擎的漏洞报告网站,因为这些网站可能敏感地显示诸如数据库配置、文件位置等敏感

Public @ 2023-06-15 06:00:13

更多您感兴趣的搜索

0.457505s