Categories


Tags


【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取(第一期)

在【院长帮帮忙】栏目露过面的站点是编织汇(www.bianzhihui.com),该站点通过反馈中心反馈页面内容迟迟不被抓取,经百度工程师追查,原来是因为页面上的无用时间信息——没有想到是不是?同学们快来看看这个案例吧。也想让院长帮助追查吗?快来看看这里!

站点求助:现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下:

http://www.bianzhihui.com/t/6717(教程详细页面举例)

http://www.bianzhihui.com/u/12306 (用户页面举例)

http://www.bianzhihui.com/h/154 (编织花样页面举例)

我们已将这些url放入sitemap,并使用了百度统计的集成的JS推荐,但是未曾有改善。

站点求助:自查

根据反馈中心的回复,使用抓取异常工具诊断:未发现异常

院长出手,内部追查

工程师结论: spider抓取很及时,但因为该网站没有设置内容产出时间,网站底部却有个老旧时间日期,导致spider误以为网页内容老旧(具体策略较复杂,在此不做赘述)。建议增加页面内容产生时间,去掉没有必要的时间信息

*以上为旧页面截图,“2014年9月9日”对时间识别造成干扰。

站点总结:

1,网页上切忌勿乱加时间,如我们网站的(始于2014年9月9日)这种时间是一个大忌

2,网页内容尽可能加上产出时间,也就是发布时间

3,百度site的结果时间和权重并无太多关系

4,跟百度沟通的时候,一定要条例清晰,证据确凿。自身的问题一定要先排查准确。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2015-07-21 15:22:04

吸引蜘蛛抓取的影响因素

1、网站和页面权重。质量高,资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会更多内页被收录。2、与首页点击距离。一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。离首页点击距离近,页面权重越高,被蜘蛛爬行的机会也越大。3、导入链接。无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道

Public @ 2017-12-02 16:22:35

【院长帮帮忙】地域类站点,这个问题一定要注意!(第八期)

最近院长收到一个地方站较多的网站反馈站点问题,网站在搜索北京XX网的情况下,搜索结果下却出现大量这个网站的其他地方站,这是什么问题呢?工程师问题追查:首先,百度对网站的收录没有问题,而以上情况的产生,是因为网站的移动适配错误造成的。以上网站的移动适配,将全部的地方站类似xuzhou.abc.com,在移动端适配指向都是3g.abc.com,举例来说徐州站,对应的移动站地址实际是3g.abc.com

Public @ 2014-08-13 15:22:06

【院长帮帮忙】移动适配不稳定、不生效,可能是这些原因造成的!(第五期)

1. 未设置viewport元标签:如果页面没有设置viewport元标签,那么移动设备就不知道如何显示页面。在标签中添加一行代码即可: 2. 使用过时的布局方法:如果页面使用了过时的布局方法,比如使用了绝对定位或固定宽度来布局,那么页面在移动设备上的显示就可能出现问题。可以使用响应式布局或使用弹性盒子布局等现代化的方法来解决这个问题。 3. 图片过大:如果页面中使用了过大的图片,那么加载速度

Public @ 2023-06-03 09:00:19

更多您感兴趣的搜索

0.475408s