Categories


Tags


robots.txt概念和10条注意事项

robots.txt概念

如果我们网站内有某些特殊的文件不让搜索引擎收录,那怎么办?

答案是:使用一个叫做robots.txt的文件。

robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取,哪些不允许抓取。

搜索引擎蜘蛛访问网站任何文件之前,需先访问robots.txt文件,然后抓取robots.txt文件允许的路径,跳过其禁止的路径。

总结:robots.txt是一个简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。

关于robots.txt文件的10条注意事项:

1、如果未创建robots.txt文件,则代表默认网站所有文件向所有搜索引擎开放爬取。

2、必须命名为:robots.txt,都是小写,robot后面加"s"。

3、robots.txt必须放置在一个站点的根目录下。

通过如https://www.seowhy.com/robots.txt 可以成功访问到,则说明本站的放置正确。

4、一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。

5、空格换行等不能弄错,可复制这个页面并修改为自己的。点击

6、有几个禁止,就得有几个Disallow函数,并分行描述。

7、至少要有一个Disallow函数,如果都允许收录,则写: Disallow:

如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。

8、允许有多个User-agent,如果对所有爬取蜘蛛生效,则用“*”星号表示。

9、robtos.txt文件内可以放上Sitemap文件地址,方便告诉搜索引擎Sitemap文件地址。

10、网站运营过程中,可以根据情况对robots.txt文件进行更新,屏蔽一些不要搜索引擎抓取的文件地址。

举例两个常见屏蔽规则:

User-agent: *  星号说明允许所有搜索引擎收录

Disallow: /search.html   说明 https://www.seowhy.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php?   说明类似这样的页面https://www.seowhy.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

来源:搜外网


Public @ 2019-12-20 16:09:22

301跳转常见问题汇总

1. 什么是301跳转? 301跳转是一种HTTP状态码,表示永久性重定向。它告诉搜索引擎和用户请求的页面已经永久性移动到了另一个URL地址。当用户访问旧的URL时,服务器会自动将其重定向到新的URL。 2. 为什么需要使用301跳转? 使用301跳转可以帮助网站解决重复内容的问题,提高网站的排名和用户体验。当一个页面更改了URL或者被删除时,使用301跳转可以告知搜索引擎和用户该页面已经被

Public @ 2023-06-08 00:50:29

robots.txt文件的格式

robots.txt文件的格式为: User-agent: [user-agent-name] Disallow: [URL path] 其中,[user-agent-name]指代搜索引擎爬虫的名称,[URL path]指代禁止访问的URL路径。在文件中可以定义多条User-agent和Disallow规则,每一条规则占一行,每一对规则之间要有一个空行。示例: User-agent: *

Public @ 2023-05-28 01:50:08

robots.txt:如何让搜索引擎不要抓取没用的页面

| 什么是robots文件?Robots是站点与spider沟通的重要渠道,是网站与搜索引擎爬虫之间的协议,告知哪些可抓取哪些不允许。| 为什么要做robots文件?网站上总有一些页面是禁止蜘蛛抓取的。例如:搜索页面、筛选页面、后台登录地址等。| 如何制作 robots文件?编写robots.txt文件并上传到网站根目录。| 制作 robots.txt注意事项● 所有搜索引擎则用星号表示● All

Public @ 2019-03-13 16:09:27

robots

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。来源:360站

Public @ 2014-01-16 16:09:19

更多您感兴趣的搜索

0.415644s