Categories


Tags


头条搜索站长平台-sitemapindex文件要求

sitemapindex文件根节点必须是<sitemapindex>。

sitemapindex文件编码必须为UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>。

sitemapindex文件禁止使用命名空间,禁止使用规定之外的属性。

sitemapindex文件大小不得超过5M,sitemap节点数量不超过1W。

必须保证sitemap中所有URL可访问,且内容符合XML数据文件规范。

1.XML数据文件规范

数据XML文件的根节点必须为<DOCUMENT>

数据XML文件编码必须为UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>

数据XML文件禁止使用命名空间,禁止使用规定之外的属性。

数据XML单个文件大小不得超过10M(必须满足),item数目不得超过1W。

除根节点之外的其它节点,标签名建议采用英文小写字母及下划线‘_’

数据节点中包含转义字符,请使用CDATA

对于数组型的节点,请在只有一个子节点时保证和多个节点时的结构相同

2.Txt格式规范

Txt文件编码必须为UTF-8

Txt文件大小不得超过10M,每个文本文件最多可包含5w个网址

Txt文件每行都必须有一个网址,网址中不能有换行

Txt文件中不能包含网址列表以外的任何信息

- 必须书写完整的网址,包含http/https

- 必须保证Txt文件中所有URL 可访问,且内容符合Txt数据规范

注意事项

提交的sitemap有作弊嫌疑的url,头条将进行严厉的处罚措施并取消相关权限

头条spider有自身的爬取规则,sitemap只是帮助头条spider更好的收录您的网站,提交sitemap并不会决定网站收录或者排名。

来源:头条搜索站长平台


Public @ 2013-06-03 16:09:47

头条搜索站长平台-sitemap异常原因解释

sitemap异常原因解释解决方法爬虫被封禁可能是您的网站对Bytespider的UA或IP进行封禁建议您根据我们公布的UA和IP进行解封,第二天重新抓取之后会恢复正常sitemap文件数据量过大可能是您的sitemap节点数量超过了5w个建议您拆分为几个小的sitemap文件sitemap地址非法可能是您的sitemap地址不可访问或者存在xml和txt混合模式的数据建议您按照我们的要求提交si

Public @ 2021-01-02 16:09:47

百度搜索robots协议全新升级公告

Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。9月11日,百度搜索robots全新升级。升级后robots将优化对网站视频URL收录抓取情况。仅当您的网站包含不希望被视频搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。如您

Public @ 2017-06-06 16:09:00

百度搜索资源平台-sitemap全网开放及建议启用Etag的公告

亲爱的网站管理员:百度站长平台即将正式全网开放sitemap权限,所有通过百度站长平台验证的网站均可以在百度站长工具的链接提交里添加网站的sitemap,而从近期sitemap全网开放会进入内测阶段,站长平台会挑选没有sitemap提交权限的站点参加内测,内测的报名入口《申请sitemap全网开放内测名额》。另外,本次sitemap全网开放,将取消由站长来设置sitemap文件更新周期的功能,而是

Public @ 2013-01-24 16:09:46

什么是Sitemap

Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考。百度对已提交的数据,不保证一定会抓取及索引所有网址。但是,我们会使用Sitemap中的数据来了解网站的结构等信息,这样可以帮助我们改进抓取策略,并在日后能更好

Public @ 2013-10-13 16:09:44

更多您感兴趣的搜索

0.568001s