Categories


Tags


【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取(第一期)

在【院长帮帮忙】栏目露过面的站点是编织汇(www.bianzhihui.com),该站点通过反馈中心反馈页面内容迟迟不被抓取,经百度工程师追查,原来是因为页面上的无用时间信息——没有想到是不是?同学们快来看看这个案例吧。也想让院长帮助追查吗?快来看看这里!

站点求助:现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下:

http://www.bianzhihui.com/t/6717(教程详细页面举例)

http://www.bianzhihui.com/u/12306 (用户页面举例)

http://www.bianzhihui.com/h/154 (编织花样页面举例)

我们已将这些url放入sitemap,并使用了百度统计的集成的JS推荐,但是未曾有改善。

站点求助:自查

根据反馈中心的回复,使用抓取异常工具诊断:未发现异常

院长出手,内部追查

工程师结论: spider抓取很及时,但因为该网站没有设置内容产出时间,网站底部却有个老旧时间日期,导致spider误以为网页内容老旧(具体策略较复杂,在此不做赘述)。建议增加页面内容产生时间,去掉没有必要的时间信息

*以上为旧页面截图,“2014年9月9日”对时间识别造成干扰。

站点总结:

1,网页上切忌勿乱加时间,如我们网站的(始于2014年9月9日)这种时间是一个大忌

2,网页内容尽可能加上产出时间,也就是发布时间

3,百度site的结果时间和权重并无太多关系

4,跟百度沟通的时候,一定要条例清晰,证据确凿。自身的问题一定要先排查准确。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2015-07-21 15:22:04

360搜索蜘蛛IP段及蜘蛛ip被拦截的问题解决方法

搜索蜘蛛IP段 1、百度蜘蛛:220.181.100-220.181.111 2、360搜索蜘蛛:36.110.0-36.110.255 3、新浪蜘蛛:61.135.160-61.135.160 4、搜狗蜘蛛:182.118.7-182.118.15 蜘蛛IP被拦截的问题解决方法 1、根据不同的蜘蛛IP段添加搜索蜘蛛的IP白名单,以免被拦截; 2、根据不同的蜘蛛访问网站的添加Us

Public @ 2023-02-24 20:00:29

【官方说法】只需两步,正确识别百度蜘蛛(User-Agent)

1. 查看User-Agent字段:当访问网站时,每个请求都会包含一个User-Agent字段,其中包含了请求的来源和类型等信息。如果该字段中包含了“Baiduspider”或“Baidu”等关键词,则说明该请求来自百度蜘蛛。 2. 检查IP地址:百度蜘蛛的IP地址通常为百度公司的IP地址,用于爬取和收集网站内容。如果该请求的IP地址为百度的IP地址,则说明该请求来自百度蜘蛛。 注意:需要注意

Public @ 2023-06-16 06:00:26

【院长帮帮忙】我的网站排名为什么突然下降?(第十期)

近期,院长收到许多站长的反馈,说自己运营的站点排名突然下降。有站长对照近期公布的细雨算法分析,认为是细雨算法的惩罚生效,影响了网站的流量。但情况真的是这样吗?现在就让院长来给你个说法吧!院长对近期反馈的case集中进行了分析,从反馈的问题来看,问题多集中在网站标题作弊,明确的说,是网站页面标题堆砌的行为导致的。自2017年9月起,百度搜索资源平台发布了清风算法、清风算法2.0 ,主要是针对标题作弊

Public @ 2021-03-04 15:22:02

【院长帮帮忙】移动适配不稳定、不生效,可能是这些原因造成的!(第五期)

1. 未设置viewport元标签:如果页面没有设置viewport元标签,那么移动设备就不知道如何显示页面。在标签中添加一行代码即可: 2. 使用过时的布局方法:如果页面使用了过时的布局方法,比如使用了绝对定位或固定宽度来布局,那么页面在移动设备上的显示就可能出现问题。可以使用响应式布局或使用弹性盒子布局等现代化的方法来解决这个问题。 3. 图片过大:如果页面中使用了过大的图片,那么加载速度

Public @ 2023-06-03 09:00:19

更多您感兴趣的搜索

0.459832s