Categories


Tags


浅谈404问题

今天为什么要说一下404问题呢,最近看case过程中发现个很有意思的网站,该网站被灌了大量的垃圾信息,被其发现后及时地进行了删除,这一点是值得肯定的。通常情况下,正常网站将自动返回404状态码,搜索引擎进行更新并删除,避免对网站用户及搜索引擎带来负面影响。但问题来了,该网站只删除了内容,没有任何主体内容的页面被保存了下来,未做404处理。当然,存在一类网站只删除内容后返回正常200状态码,提醒一句“该内容已删除”,但其都没有。可以发现目前这个搜藏中的url仍然正常返回200,http://cang.baidu.com/Lee/snap/3b0a0cc8e7d7899facd36fad.html,造成的后果:搜索引擎将花费大量的资源在这种无效页面上,那么,同等耗损下用在重要页面上的资源将被大量挤占,可想而知,正常优质页面在搜索引擎的部分表现将受到影响。经过我们运营同学的多方沟通下至今仍未进一步处理。我觉得,21世纪第二个十年了,这种问题不应该再存在了的。

好吧,承认我被打败了。简单说一下:

404状态码代表‘Not Found’,spider更新时会认为该页面已失效,此时呢将在索引库中删除,短期内spider再次发现该url不再会抓取。因此,出来了两类问题:第一,网页临时性打不开;第二,页面永远无法打开。针对第一类问题,我建议不要立刻返回404,而是使用503。503等同于告诉spider该页面临时访问不了,过段时间再来光临。关于503,spider会认为该网页临时无法访问,短期内会再光临。如果网页已经恢复,即刻正常抓取;如果继续返回503,短期内还会再光临几次,但如果该页面长时间返回503,该url仍会被认作失效链接,从索引库中删除。针对第二类问题,永远无法打开的页面,404,不用考虑。各种web2类页面删除后同样需要返回404告知搜索引擎该页面已失效。

回归之前那个网站,删除内容后该页面没有任何价值。最恰当的处理是:

1、直接做死链处理并返回404;

2、在百度站长平台死链提交工具中提交死链sitemap。

最后呢,提醒一下各位站长朋友,当您的网站存在被发布大量垃圾信息时,请:

1、及时删除相关垃圾页面,并做404处理;

2、制作符合要求的死链sitemap;

3、登录百度站长平台,进入死链提交工具提交死链sitemap。

如果大家对404问题还有别的疑问,大家可以到[学堂同学汇][学习讨论]《浅谈404问题》讨论贴中发表自己的看法,我们的工作人员会关注这里并与大家进行探讨。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2014-09-24 16:09:54

再谈Canonical标签

前几天站长社区有站长朋友谈了一下对Canonical标签的看法,认为这是一个与301类似、解决网站内重复页面的好办法。那么我们来谈谈这两者有什么区别,使用Canonical标签时又该注意些什么。【Canonical标签与301的区别】1,在几个网页内容完全相同(或高度相似)的时候,如果希望两个网页都可以被用户正常访问到,就使用Canonical标签;如果仅让用户访问其中的一个,直接使用301跳转更

Public @ 2015-05-27 16:11:17

内部链接(站内链接)的优化

1. 使用有意义的链接文本:链接文本应该包含目标页面的主要关键词,同时尽量避免使用无意义的链接文本,比如“点击这里”或“了解更多”。 2. 建立链接深度:优化站点内部链接深度是提高网站排名和用户体验的关键。建立清晰的网站结构和层次,确保每个页面都可以通过几个点击以内到达。 3. 保证内部链接的稳定性:内部链接是网站的基础,因此要确保内部链接的持续稳定。当需要调整某些页面的链接时,尽量在网站上进

Public @ 2023-04-10 06:51:07

404页面设置方法

1:虚拟空间设置方法现在的idc提供商基本都提供404设置的功能,直接上传文件设置即可。每个空间商的控制面板都不同,我在这里就不多说了。2:IIS下设置404页面在IIS管理器中右键单击要管理的网站,打开“属性”中的“自定义错误信息”页,为“404”设定相应的错误信息页即可。不过,此处在“消息类型”中一定要选择“文件”或“默认值”,而不要选择“URL”,不然,将导致返回“200”状态码。3:Apa

Public @ 2010-09-15 16:09:55

404页面错误原因

原因类型HTTP 404 错误意味着链接指向的网页不存在,即原始网页的URL失效,这种情况经常会发生,很难避免,比如说:网页URL生成规则改变、网页文件更名或移动位置、导入链接拼写错误等,导致原来的URL地址无法访问;当Web 服务器接到类似请求时,会返回一个404 状态码,告诉浏览器要请求的资源并不存在。导致这个错误的原因一般来说,有三种:1、无法在所请求的端口上访问Web站点。2、Web服务扩

Public @ 2020-10-18 16:10:01

更多您感兴趣的搜索

0.423510s