Categories


Tags


搜狗资源平台-抓取诊断帮助

功能说明

检查网页是否被黑,通常被黑的网页会对搜狗的UA返回特定的网页,针对用户以另一种样式展现,抓取诊断工具就可以帮助您判断页面在搜狗UA下的表现是否和预期一致。

检测搜狗是否能顺利抓取您的网站,协助您在修改服务器配置、迁移等工作后检查是否生效,提升收录数据。

诊断抓取内容是否符合预期,例如很多新闻滚动列表页,新闻信息是通过JavaScript输出的,对搜狗蜘蛛不友好,具体新闻列表较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。

常见错误类型解析

错误一重定向错误

重定向是指搜狗spider访问链接时发生了跳转,如果跳转后的链接超长或者连续跳转的次数超过5次,就会发生重定向错误而导致抓取失败。

错误二服务器连接错误

出现这种情况可能的原因有:

* 如果您的服务器运行缓慢或者流量较大出现带宽瓶颈, 可能就无法及时响应搜索爬虫发出的请求,导致影响您的收录(如果您的站点持续出现服务器连接错误,也将导致你网站在搜狗的索引下线直接影响流量),请结合自身网站压力适当调节服务器配置以及带宽上线。

* 您可能会由于系统级问题而阻止了搜狗爬虫访问,例如配置不当的防火墙或DoS防护系统、内容管理系统配置问题。防御系统是保证托管服务正常运行的关键因素之一,并且这些系统通常会配置为自动阻止超量的服务器请求。由于单台搜狗IP发出的请求通常要比普通用户多,因此可能会触发这些防御系统,导致它们阻止搜狗spider访问并抓取您的网站。要解决此类问题,您需要确定网站基础架构中的哪个部分在阻止搜狗spider访问,然后取消该阻止。如果您没有控制防火墙的权限,就需要与您的托管服务提供商联系解决此问题。

错误三robots封禁问题

在抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否在网站根目录下放置robots.txt文件并且配置封禁了搜狗的爬虫。由于搜狗爬虫遵守robots协议,该配置会影响搜索引擎收录您的网页,直接影响后续的索引和流量。如果你修改了该项配置不在封禁,搜狗爬虫会在一定周期内更新您的robots文件,该过程对您透明。

错误四DNS问题

DNS错误是指由于服务器停止运行或DNS到您网域的路由存在问题,导致搜狗spider无法与DNS服务器通信。

* 如何处理DNS错误?

确保搜狗能够抓取您的网站。对重要网页(例如您的首页)采用抓取诊断工具,如果它能顺利返回您的首页内容,那么您就可以认为搜狗能够正常访问您的网站。

对于持续的或反复出现的DNS错误,请与您的DNS提供商或者域名服务商联系。确保您在域名服务商哪里注册的域名和绑定的IP是您指定的。

错误五404问题

一般情况下,当搜狗spider访问到不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。

错误六访问遭拒绝

一般情况下,搜狗会通过跟踪网页间的链接来查找内容。搜狗spider必须能够访问某个网页才能抓取该网页。如果您意外地看到了“访问遭拒”错误,可能是由于以下几种原因导致的:

* 搜狗spider无法访问您网站上的网址,因为您网站上的所有或部分内容要求用户登录后才能查看。

* 由于您服务器的配置权限问题导致搜狗爬虫(大多数情况下也包括普通用户)没有权限查看您的网页,请修改服务器对目录和访问文件的权限。

错误七参数错误

由于请求的语法格式有误,不符合服务器对请求的某些限制,或者请求本身存在一定的错误,服务器无法理解此请求,导致抓取失败。

错误八socket读写错误

当搜狗spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。

错误九读取http头或者页面内容时失败

您的服务器收到了我们的完整请求,但是返回信息时不完整,http头或者响应正文发生了截断,导致网页内容不能正常读取。

注意事项

每个站点每周可使用200次,抓取诊断仅展现搜狗蜘蛛可见的前200kB内容,请合理利用。

搜狗支持抓取的url长度不超过1024,如果您的链接长度过长,请在网页正常服务的情况下,去除无效参数,精简url,此举也可防止搜索引擎重复收录。

对抓取诊断工具有其他问题?可以向提交反馈和建议。

来源:搜狗资源平台


Public @ 2019-06-22 16:05:07

搜狗资源平台-收录索引查询

要查询搜狗资源平台的收录索引,您可以按照以下步骤进行: 1. 打开搜狗资源平台的官方网站。 2. 在网站的搜索框中输入您想要查询的关键词或网址。 3. 单击搜索按钮或按下回车键进行搜索。 4. 在搜索结果页面中,您会看到与您输入的关键词或网址相关的资源列表。 5. 您可以浏览该列表,查找您需要的资源。请注意,资源的收录索引可能因搜狗资源平台的更新和调整而有所变化。 6. 如果您希望了解更详细的收

Public @ 2023-06-30 10:50:12

搜狗搜索提交中文站点名的说明

一、中文站点名的统一审核标准1.网站名称为全网唯一且与网站内容、logo、标题等相符;2.网站为优质站点,网站可以正常浏览,内容优质,无“欺诈网站”等警告;3.不支持标点符号,仅支持汉字、英文字母和数字,必须包含汉字,英文需要区分大小写;4.仅支持一级和二级域名,站点中文名需控制在18个字节(9个汉字)以内;为了保证公平,对中文站点名的审核是较为严格的,如出现以下的情况,则不会通过审核:1.网站名

Public @ 2010-07-31 15:55:05

搜狗官网的展现规则是什么?

官网认证成功后,在且仅在网民搜索您认证通过的精准官网名称时,则在您申请认证的官方网址旁边,且仅在该搜索结果旁边会展现绿色官网标识。为保证网民的搜索体验,我们采用精确匹配方式触发官网标识展现。例如:您申请并认证通过的官网url为“www.sogou.com”,官网名称为“搜狗”,关键词1为“搜狗搜索”(符合要求),关键词2为“北京搜狗信息服务有限公司”(不符合要求)。当网民在搜索“搜狗”时,如果查询

Public @ 2012-06-01 15:55:12

搜狗资源平台-收录索引查询

要查询搜狗资源平台的收录索引,您可以使用以下方法: 1. 使用搜狗搜索引擎进行查询:打开搜狗搜索首页或搜狗网址导航,输入您要查询的内容,并点击搜索按钮。然后在搜索结果页面中查找搜狗资源平台的链接,点击进入。 2. 在搜狗搜索引擎中直接搜索"搜狗资源平台":在搜狗搜索引擎中输入"搜狗资源平台"关键词,并点击搜索按钮。然后在搜索结果页面中查找相关信息,找到搜狗资源平台的官方网站链接。 3. 搜狗

Public @ 2023-07-24 16:50:15

更多您感兴趣的搜索

0.596345s