Categories


Tags


头条搜索站长平台-Sitemap提交

功能说明

提交sitemap工具可以向头条搜索提交网站的sitemap文件,帮助头条spider更好的抓取您的网站。您可以在此工具下选择已经验证的站点,进行验证站点的sitemap文件提交。

sitemap提交后,头条搜索会根据sitemap了解网站中数据情况。

sitemap要求

sitemapindex文件要求

sitemapindex文件根节点必须是<sitemapindex>。

sitemapindex文件编码必须为UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>。

sitemapindex文件禁止使用命名空间,禁止使用规定之外的属性。

sitemapindex文件大小不得超过5M,sitemap节点数量不超过1W。

必须保证sitemap中所有URL可访问,且内容符合XML数据文件规范。

1.XML数据文件规范

数据XML文件的根节点必须为<DOCUMENT>

数据XML文件编码必须为UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>

数据XML文件禁止使用命名空间,禁止使用规定之外的属性。

数据XML单个文件大小不得超过10M(必须满足),item数目不得超过1W。

除根节点之外的其它节点,标签名建议采用英文小写字母及下划线‘_’

数据节点中包含转义字符,请使用CDATA

对于数组型的节点,请在只有一个子节点时保证和多个节点时的结构相同

2.Txt格式规范

Txt文件编码必须为UTF-8

Txt文件大小不得超过10M,每个文本文件最多可包含5w个网址

Txt文件每行都必须有一个网址,网址中不能有换行

Txt文件中不能包含网址列表以外的任何信息

- 必须书写完整的网址,包含http/https

- 必须保证Txt文件中所有URL 可访问,且内容符合Txt数据规范

注意事项

提交的sitemap有作弊嫌疑的url,头条将进行严厉的处罚措施并取消相关权限

头条spider有自身的爬取规则,sitemap只是帮助头条spider更好的收录您的网站,提交sitemap并不会决定网站收录或者排名。

工具使用方法

1. sitemap索引格式

<?xml version='1.0' encoding='UTF-8'?>

<sitemapindex>

<sitemap>

<loc>https://www.toutiao.com/1.xml</loc>

<lastmod>2019-12-05</lastmod>

</sitemap>

<sitemap>

<loc>https://www.toutiao.com/2.xml</loc>

<lastmod>2019-12-05</lastmod>

</sitemap>

</sitemapindex>

2. xml格式

<?xml version="1.0" encoding="utf-8"?>

<urlset>

<url>

<loc>https://www.toutiao.com/1</loc>

<lastmod>2019-11-26</lastmod>

</url>

<url>

<loc>https://www.toutiao.com/2</loc>

<lastmod>2019-11-26</lastmod>

</url>

</urlset>

3.txt格式

http://www.example.com/1.html

http://www.example.com/2.html

http://www.example.com/3.html

4. 提交sitemap

完成sitemap制作后可以使用sitemap提交工具进行提交

sitemap提交帮助

1)提交成功

等待:代表您的sitemap文件已经解析完毕,等待抓取

正常:代表您的sitemap文件在抓取中

异常:代表您的sitemap文件存在问题,不能抓取

2)提交失败

若在Sitemap提交工具使用中发生错误,请确认是否为以下原因:

Sitemap文件地址无法访问,请确认提交的地址可正常访问。

Sitemap文件地址与提交站点不是包含关系,请确认提交的地址属于已验证的站点

相同的Sitemap文件地址已经添加过,请勿重新添加。

提交的Sitemap格式不规范,请检查该数据格式,修改后重新提交。

sitemap异常原因解释

sitemap异常原因解释解决方法

爬虫被封禁可能是您的网站对Bytespider的UA或IP进行封禁建议您根据我们公布的UA和IP进行解封,第二天重新抓取之后会恢复正常

sitemap文件数据量过大可能是您的sitemap节点数量超过了5w个建议您拆分为几个小的sitemap文件

sitemap地址非法可能是您的sitemap地址不可访问或者存在xml和txt混合模式的数据建议您按照我们的要求提交sitemap地址

站点服务不可用我们请求您的网站3次后发现您的网站仍旧不可访问会暂时停止抓取,则返回该原因请您检查服务器是否可正常运转,如果正常,等正常调度后正常抓取

sitemap地址不存在可能是您的地址无法访问,返回404,我们获取不了任何信息请您排查sitemap地址链接,等正常调度后可恢复正常抓取

txt文件未发现有效链接可能是您的txt文件链接并非按照要求提供html链接请您按照我们的规范格式提交

xml文件数据量过大可能是您的xml文件大小超过10M,item数目超过1W个建议您拆分几个小的xml文件

Sitemap相关QA

Sitemap文件支持什么格式提交?

目前头条搜索sitemap支持xml、txt格式提交,不支持单条链接提交。

我提交时填写的周期是什么含义?

ByteSpider会参考设置周期抓取Sitemap文件,因此请根据Sitemap文件内容的更新(比如增加新url)来设置。请注意如果url不变仅是url对应的页面内容更新(比如UGC回答有新内容),不在此更新范围内,Sitemap工具不能解决页面更新问题。

Sitemap提交后,多久能被头条搜索处理?

Sitemap数据提交后,一般在1小时内头条搜索就会开始处理,但抓取时间会以Sitemap文件大小决定,如果遇到状态“等待”时间较长,可以观察一下。

提交的Sitemap都会被头条搜索抓取并收录吗?

头条搜索对网站提交的数据,无法保证一定会抓取且收录所有网址,数据链接能否被收录与页面质量相关,可尽量避免低质内容提交。

Sitemap的url链接可以包含中文吗?

不要有,“中文”无法解码。

为什么我提交的sitemap返回异常?

封禁:如果返回状态为请求异常,请务必确认是否封禁头条搜索的出口ip和ua

格式有误:请确认您的sitemap是否严格按照提交帮助中的格式生成,sitemapindex里面包含的xml也应以.xml结尾

解析失败:解析失败只存在于xml格式,如果因为解析失败返回异常,请检查您的xml是否符合标准sitemap格式规范

创建Sitemap时有哪些注意事项

sitemapindex文件大小不得超过5M,sitemap节点数量不超过1W个。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。数据量限制有助于确保您的网络服务器不会因提供大文件而超负荷;

站点支持提交的sitemap文件个数必须少于1w个,多于1w个后会不再处理,并显示“sitemap文件数据量过大”

提示

sitemap数据能帮助头条搜索改进抓取策略,不能承诺收录,也不能决定收录量级,不能决定搜索排名。

来源:头条搜索站长平台


Public @ 2010-06-17 16:09:48

robots文件中屏蔽的为什么还可以收录?

我今天来给大家详细讲解下,先了解几个概念1、robots只是禁止抓取,不是禁止收录2、另外还有nofollow的作用不是不抓取这个链接,是不从这个链接传递权重了解这2个概念后,我们再来讨论怎么处理这类收录问题:robots写正确的同时,不要在任何一家收录的网站发外链,友链,也不要主动提交百度,这样才可以保证不被搜索引擎收录,为什么呢?大家百度查一下淘宝,如图:按照道理淘宝写了robots怎么还是收

Public @ 2021-04-26 16:09:29

404页面该怎么做?

404页面是指在网站中访问的页面不存在或者找不到时,服务器返回的错误页面,一般返回状态码为404。以下是404页面的制作建议: 1. 突出提示信息:应突出404错误提示信息,告知用户页面不存在,并给予建议或转到网站首页。 2. 留下联系方式:如果是用户信息输入错误导致的404页面,可以留下联系方式,方便用户与网站联系。 3. 美化页面设计:可以设计一张有趣、富有创意或者符合主题的图片作为40

Public @ 2023-06-26 03:00:15

新手如何掌握制作和提交网站地图?

网站地图作为根据网站的结构,框架,内容生成的导航网页文件。大多数人都知道网站地图对于提高用户体验有好处:它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。那么什么是网站地图呢?在开始介绍网站地图的制作与提交之前,我们有必要先了解一下什么是网站地图。网站地图也就是sitemap,是一个网站所有链接的容器。很多网站的链接层次比较深,蜘蛛是很难抓取到的,网站地图可以方便搜索引擎蜘蛛抓取网站

Public @ 2021-11-03 16:09:49

什么是ETag?ETag作用有哪些

ETag是HTTP协议中的一个响应头部字段,用于标识HTTP请求的资源版本。一般由服务器生成,类似于一个唯一标识符,与该资源的内容相关联。ETag的值可以是任何由服务器生成的标识符,例如文件的修改时间戳、哈希值等。 ETag的主要作用有以下几个: 1. 缓存控制:当客户端请求资源时,客户端可以与服务器之间比较ETag的值来判断资源是否过期。如果ETag值相同,则表明资源没有发生变化,客户端可以

Public @ 2023-03-28 23:50:29

更多您感兴趣的搜索

0.514474s