Categories


Tags


搜索引擎排名的人工干预

虽然搜索引擎排名技术和算法一直在提高,但我相信所有搜索引擎都或多或少有人工干预,就算最标榜一切以算法和自动化为目标的Google,也肯定有人工因素。

去年就曾经有人报道(http://www.searchbistro.com/index.php?/archives/19-Google-Secret-Lab,-Prelude.html),Google在很多国家的大学招募学生,进行搜索引擎结果的评价工作。一位教授从他的学生那里得到了这份资料,里面包含Google发给这些学生的评价标准,还有一段评价系统的演示。

大意是这些学生会在一个界面中,看到某一个特定搜索的两种结果,然后给出意见,哪一个更好,还是一样。

GoogleGuy很强烈的评论说,这份资料的泄漏已经违反了这些学生当初和Google所签订的保密条约。这也肯定了这些人工评价的存在。GoogleGuy说,这些进行搜索结果评估的学生或编辑,并不能直接干预搜索结果,也就是不能对搜索结果做任何调整。

Google的做法是,把这些评估作为软件工程师调整算法时的输入,通过算法的改变,使搜索结果更能符合编辑的预期。

我想这是可以相信的。估计在Google内部,只有在很高层次的人才有权力对某个网站的排名进行调整,就像前一阵Google对BMW网站的惩罚和快速恢复一样,这不可能是普通工程师有的权力。

不过无论如何,就连Google也肯定有人为的因素。

对百度人工干预搜索结果的传言就更多了。我的这个博客是我唯一的中文网站,所以对百度的人工干预并没有切身感受。不过从很多地方都能看到各种各样的评论猜测,认为百度对搜索结果的人工干预更广泛更随意,不是通过算法实现,而是直接调整某个网站的SEO排名。

我个人认为,这种方式没有Google的处理方式好。网站数目这么庞大,用户搜索的关键词这么多,不可能由人工对每个关键词的排名结果做评估。针对某个特定网站的调整,无法避免人的偏见和不公平性。人是最能腐败的动物,而算法不会。

给定一定的条件,算法对所有网站一视同仁。而人不可避免的带有主观性,在很多情况下,比算法还要不公正。

补充:刚写完这个帖子还没发就发现我的这个博客被百度封杀了。我观察应该是全面封杀,因为几乎所有页已经被删除了。不一定是人工干预。明天再来谈。

来源:seo每天一贴 Zac 昝辉


Public @ 2022-08-25 16:21:50

爬行、抓取、索引、收录,指的都是什么?

一位读者在蜘蛛抓取配额是什么这篇帖子留言:不对呀,这个index标签,是指告诉蜘蛛可以抓取该页面,那么noindex不就是不允许抓取该页面吗?!那么为什么文章最后的几个说明里有“noindex标签不能节省抓取份额。搜索引擎要知道页面上有noindex标签,就得先抓取这个页面,所以并不节省抓取份额。”留言说明,这位读者并没有太明白什么是抓取,什么是索引,index和noindex标签的意义又是什么。

Public @ 2021-09-23 16:21:52

搜索引擎抓取系统概述(二)

编者按:之前与大家分享了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程的内容,今天将于大家分享搜索引擎抓取系统第二部分内容—spider抓取过程中的策略。spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策

Public @ 2020-03-26 16:12:37

搜索引擎工作的基础流程与原理

搜索引擎工作的基本流程如下: 1. 网络爬虫:首先搜索引擎需要通过网络爬虫抓取网页,并对网页进行解析,将其中的文本、图片、链接等信息提取出来。 2. 存储索引:接着搜索引擎需要将这些信息存储在索引库中,为后续搜索做准备。 3. 搜索关键词:当用户输入关键词进行搜索时,搜索引擎需要对这些关键词进行分词,并对分词结果进行查询,找到相关的网页并按照相关度排序。 4. 显示结果:最后,搜索引擎会按

Public @ 2023-04-02 03:00:29

搜索引擎工作原理

搜索引擎的工作原理大致如下: 1. 网络爬虫(Spider):搜索引擎会派遣网络爬虫,搜索引擎爬虫通过扫描互联网上的网页,并收集这些网页的信息,包括标题、关键词、描述、网址、内容、超链接等。 2. 索引(Index):搜索引擎将收集到的网页内容进行分析,提取出其中的关键词,并将这些关键词存入一个大型的索引库中,以便后续快速查询。 3. 检索(Retrieval):当用户输入查询词时,搜索引擎

Public @ 2023-04-14 20:00:35

更多您感兴趣的搜索

0.427133s