Categories


Tags


什么是robots文件

什么是robots文件

Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2017-09-19 16:02:20

百度搜索资源平台-链接提交主动推送产品升级公告

亲爱的网站管理员:为配合Spider3.0系统的升级,百度站长平台的链接提交工具主动推送功能,不再限制站长每天提交的链接数量,欢迎站长更踊跃更及时地向百度提交更多优质页面。为了保持对已有提交代码的兼容性,提交接口返回数据中的“remain:当天剩余的可推送url条数”字段会保留,但是固定为“1”。新版主动推送功能会对站长提交的内容进行识别,恶意提交垃圾页面或者重复页面的站点将会被惩罚限制提交,直至

Public @ 2020-12-27 16:06:29

百度搜索资源平台-搜索用户建议专区上线公告

尊敬的百度用户: 为了更好地提升搜索用户体验,百度搜索资源平台决定上线搜索用户建议专区。该专区旨在为广大百度用户提供一个交流和反馈的平台,让用户能够更直接地向我们提出意见、建议和需求,帮助我们改进搜索服务。 用户建议专区将包含以下功能: 1. 意见建议提交:用户可通过专区提交自己对搜索服务的意见和建议,我们会认真收集和考虑每一个用户的反馈。 2. 问题反馈与解答:用户在使用搜索过程中遇到的

Public @ 2023-07-31 06:50:27

robots.txt文件的格式

robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:"<field>:<optional space><value><optionalspace>"在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常

Public @ 2012-09-17 16:08:56

360搜索对Robots协议的扩展

360搜索根据站长们的反馈,会陆续推出扩展的Robots协议命令。这些命令将能帮助站长们提高和360搜索爬虫沟通的效率,减少站长们维护Robots协议文件的技术成本。360搜索首个扩展命令是:indexpage,站长们可以使用此命令告知360搜索哪些网页经常更新。360搜索会根据站长的指示以及自己的算法,智能调整爬虫抓取频率,实现对您网站新内容的更高频率抓取。在命令中可以使用*、$等通配符。示例:

Public @ 2019-02-15 16:09:33

更多您感兴趣的搜索

0.433054s