Categories


Tags


头条搜索Robots匹配说明

匹配方式

分两部分:1.path部分,2.参数部分

匹配支持?*$?两种通配符

?*? 表示任何有效字符的 0 个或多个个案。

?$? 表示网址结束。

path部分

与google匹配方式保持一致,也就是只有/或是*开头的规则才有机会匹配上

?/?

匹配根目录以及任何下级网址

?/fish?

?/fish?开头的

匹配项

* ?/fish?

* ?/fish.html?

* ?/fish/salmon.html?

* ?/fishheads?

* ?/fishheads/yummy.html?

* ?/fish.php?id=anything?

不匹配项

* ?/Fish.asp?

* ?/catfish?

* ?/?id=fish?

?/fish\*?

等同于 ?/fish?。结尾的通配符会被忽略。

匹配项:

* ?/fish?

* ?/fish.html?

* ?/fish/salmon.html?

* ?/fishheads?

* ?/fishheads/yummy.html?

* ?/fish.php?id=anything?

不匹配项:

* ?/Fish.asp?

* ?/catfish?

* ?/?id=fish?

?/fish/?

结尾的斜杠表示此项与此文件夹中的任何内容均匹配。

匹配项:

* ?/fish/?

* ?/fish/?id=anything?

* ?/fish/salmon.htm?

不匹配项:

* ?/fish?

* ?/fish.html?

* ?/Fish/Salmon.asp?

?/\*.php?

匹配项:

* ?/filename.php?

* ?/folder/filename.php?

* ?/folder/filename.php?parameters?

* ?/folder/any.php.file.html?

* ?/filename.php/?

不匹配项:

* ?/?(即使其映射到 /index.php)

* ?/windows.PHP?

?/\*.php$?

匹配项:

* ?/filename.php?

* ?/folder/filename.php?

不匹配项:

* ?/filename.php?parameters?

* ?/filename.php/?

* ?/filename.php5?

* ?/windows.PHP?

?/fish\*.php?

匹配项:

* ?/fish.php?

* ?/fishheads/catfish.php?parameters?

不匹配项: ?/Fish.PHP?

?\*/ `` fish `` /?

包含/fish/的path

匹配项:

* ?/search/fish/filename.php?parameters?

* ?/fish/filename.php?parameters?

不匹配项:

* ?/Fish.PHP?

?.htm$?

错误写法,不能与.htm结尾的url匹配

参数部分

支持参数无序匹配,参数key value均支持?\*?通配符

?/home.php?mod=?

value可以是任意值

匹配项

* ?/home.php?c=0&mod=939?

* ?/home.php?c=0&mod=xxx?

不匹配项

* ?/home.php?c=0&smod=939?

* ?/home.php?c=0&mods=939?

?/home.php?mod=\*?

value可以是任意值,等同于?/home.php?mod=?

匹配项

* ?/home.php?c=0&mod=939?

* ?/home.php?c=0&mod=xxx?

不匹配项

* ?/home.php?c=0&smod=939?

* ?/home.php?c=0&mods=939?

?/home.php?mod=9?

参数值要求完全相对才匹配

匹配项

* ?/home.php?c=0&mod=9?

不匹配项

* ?/home.php?c=0&mod=939?

?/home.php?mod=9\*?

value以9开头的

匹配项

* ?/home.php?c=0&mod=939?

* ?/home.php?c=0&mod=9xx?

* ?/home.php?c=0&mod=9?

不匹配项

* ?/home.php?c=0&mod=3xx?

* ?/home.php?c=0&mod=39x?

?/home.php?mod=\*9?

value以9结尾

匹配项

* ?/home.php?c=0&mod=xx9?

不匹配项

* ?/home.php?c=0&mod=34?

* ?/home.php?c=0&mods=9?

* ?/home.php?c=0&mod=93?

?/home.php?mod=\*39?

value以39结尾的

匹配项

* ?/home.php?c=0&mod=939?

不匹配项

* ?/home.php?c=0&mod=9319?

?/home.php?\*mod=939?

key以mod结尾的

匹配项

* ?/home.php?c=0&mod=939?

* ?/home.php?c=0&smod=939?

不匹配项

* ?/home.php?c=0&mods=939?

?/home.php?mod\*=939?

key以mod开头的

匹配项

* ?/home.php?c=0&mods=939?

* ?/home.php?c=0&mod=939?

不匹配项

* ?/home.php?c=0&smod=939?

?/home.php?\*mod\*=939?

key包含mod字符串

匹配项

* ?/home.php?c=0&smods=939?

* ?/home.php?c=0&mods=939?

* ?/home.php?c=0&mod=939?

* ?/home.php?c=0&smod=939?

不匹配项

* ?/home.php?c=0&msod=939?

?/home.php?\*mod\*=\*39\*?

key 包括mod字符串,value包含39字符串

匹配项

* ?/home.php?c=0&smods=939?

* ?/home.php?c=0&smod=39?

* ?/home.php?c=0&mod=939?

不匹配项

* ?/home.php?c=0&msod=93?

?/home.php?mod?

参数部分采用前缀匹配

匹配项

* ?/home.php?c=0&mod=939?

* ?/home.php?c=0&mods=939?

不匹配

* ?/home.php?c=0&smod=939?

?/home.php?mod\*?

匹配项

* ?/home.php?c=0&mod=939?

* ?/home.php?c=0&mods=939?

不匹配项

* ?/home.php?c=0&smod=34

来源:头条搜索站长平台


Public @ 2011-09-27 16:09:01

什么是meta robots 标签?meta robots 标签的写法

Meta robots标签是一种HTML头部元数据标签,用于指示搜索引擎如何处理指定页面的内容。它告诉网络爬虫如何爬取索引优化。这些标签是在和之间添加的,旨在为“robots(搜索引擎蜘蛛)”提供有关如何索引和缓存页面内容的指令。 以下是meta robots标签的写法: - - - - 其中,“content”属性指定一组用逗号分隔的值,可以是以下之一: - index:告诉爬

Public @ 2023-04-05 21:50:30

关于URL组成部分的指南

URL(Uniform Resource Locator)是用于定位和访问互联网资源的字符串。URL由多个组成部分组成,每个组成部分都提供了关于资源的有用信息。以下是URL的组成部分: 1.协议:协议指定了访问资源的规则和方法。常见的协议有HTTP、HTTPS、FTP、SFTP等。 例如:http://www.example.com 2.主机名(域名):主机名指定了要访问资源的服务器的名称。通

Public @ 2023-06-11 16:00:19

robots是什么?

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。搜索引擎通过一

Public @ 2017-11-12 16:09:33

什么是robots文件

robots.txt是一个网站的根目录中的文件,用于告知搜索引擎哪些页面和文件可以被搜索引擎的爬虫访问,哪些不可以。该文件是遵循 robots协议的网站必不可少的一个文件,用于控制搜索引擎的爬虫访问网站的行为。通过robots.txt文件,网站管理员可以禁止搜索引擎爬虫访问一些无用或敏感的网站内容,或是避免搜素引擎爬虫访问较为频繁的API接口等。

Public @ 2023-05-30 08:00:08

更多您感兴趣的搜索

0.655605s