Categories


Tags


金字塔算法模型初识

Web3.0的到来后基于互联网营销模式层出不穷,seo就是其中一块炙手可热的领域。本人对百度算法跟踪研究已近5年的时间,我主要从事的是算法逆向,也就是通过一些相关指标来判断百度排名规则。

在叙述百度算法之前我先讲一下我在前不久之前看到百度搜索研发部博客中的一篇文章《浅谈网页搜索排序中的投票模型》里面叙述了美国的选举制度,这其实就是百度的其中一种投票体系的原型,我是这么认为的。用一张简单的图来阐述一下整个过程:

金字塔算法模型初识

看了上图我相信大家都应该明白,排序的残产生应该是在“总数据库”和百度服务器之间发生的变化,百度蜘蛛会采集很多内容回来,全部存放入总服务器,总服务器通过规则判断筛选后最终在web服务器上放出页面给出排序,其实就是在“总数据库”发生了一些列的算法变化。当然我这边阐述的内容中的各个服务器和名称全部是我个人定义,但基本的逻辑应该是如此的,按照数据分析的原则:数据收集——数据处理——数据分析仪——数据展现,其实就很能概括百度这一行为。

虽然百度一方面做着推广竞价,一方面又希望给广大用户一个良好的检索体验,可能很多seoer又恨又爱,但是根据官方的各种文本我们还是姑且相信百度搜索研发部门还是希望给用户一个好的检索体验。

说到了这里我不得不用一张图来给大家展示一下,什么是金字塔模型:

金字塔算法模型初识

看了这图后,可能有限人应该会有质疑,这很像漏斗原理,对!没错,就跟漏斗原理很像,但是没用金字塔来的励志,大家都希望能够获得金字塔最高峰。

排序筛选过程又是如何的呢?我们引用一下百度搜索研发部文章内的一段内容:

“系统里有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链、文本相关性等)对n个网页有不同的打分,如何根据这些特征的”投票“,选出最适合放在第一位的网页呢?

从选举的例子中,我们可以得到的几个启示:

1. 设计算法时,要避免出现“赢者通吃”带来的信息丢失问题。

2. 不要因为某几个特征特别好,就把某个网页排到最前,或者因为某几个特征特别差,就把某个网页抛弃。

3. 最合适放在首位的网页不一定是在每个特征上都最好,而应该是能够兼顾所有特征,综合表现最好的那个。

4. 搜索引擎使用者对搜索结果的点击行为,可以看成是对搜索结果进行的“投票”,这样的“投票”信息的使用方式,也要注意考虑是否会带来选举过程中出现的种种不合理。

以上提到的种种选举方案,仅仅是对“多候选人单职位的”的情况进行讨论,而搜索引擎面对的问题,则更类似于“多候选人排序”的情况,也即:

系统里有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链、文本相关性等)对n个网页有不同的打分,如何根据这些特征的“投票”,决定n个网页的顺序?

而这个“多候选人排序”问题,是有一个“不可能的民主”的理论的,该理论的大意是,“合理”的民主应该满足3个条件:

1. 如果选民都认为A比B好,那么最终结果应该也是A比B好

2. 没有“独裁者”,也即,不存在这样一个人,无论别人怎么排序,最终结果的排序都和这个人的排序一致

3. 无关因素独立性,也即,在第一次投票完成后,A排在B前面,现在进行第二次投票,如果所有人都没有改变自己投票中A和B的相对顺序,那最终结果应该也是A在B前面

而通过数学的证明,可以得出结论:如果某种选举方式满足条件1和3,则必然不满足2,也即必然存在“独裁者”。

根据“不可能的民主”理论,和搜索引擎结合起来看,似乎搜索引擎很难给出一个合理的网页排序,但是搜索引擎和投票又似乎有所不同,有两个角度可以破解

1. 认为条件3过于强,需要弱化。

2. 也许在网页排序问题上,真的存在这样一个“独裁特征”,这个“独裁特征”从目前看来,最适合的应该就是“用户满意度”了,按照用户的满意程度来排序网页,就是最合理的网页排序。如何衡量“用户满意度”呢?这就是我们一直在努力的。“

相信大家阅读了这段内容后应该深有体会,百度算法和选举制有很大的雷同之处。那么我们做为逆向研究的方向是先从数据展现本身研究得出数据分析原则,这个是一项长期计划,因为我们必须对数以亿计的网站进行分析后才可以得出结论,而事实证明百度排序规则中不仅仅只有一条算法规则,会有多重规则。

前期我也已经开发出一个基于关键词的简单分析程序:

这个工具主要是辅助作用,之前讨论的选举制度主要针对的外链的有效性,而此工具的主要内容是针对相关性,也就是搜索结果最后的排序规则中的先后排序规则。当然这个工具还是处于毛胚状态,很多指标都还是没有加进去,后期大家可以一起参与这份研究,把一些相对比较重要的指标加进去便于我们的研究更加的完善。

如果你是纯粹做一个seoer我觉得到这里,你也可以停止阅读这份研究,因为事实证明,你只要获得最后排序的相关算法即可完成工作,通过此工具你已经能够轻松的获得什么样的密度情况下可以优先获得排名。倘若你在做价值数万的关键词,我觉得你可以继续往下看,因为这里就会讲到选举制度中的外链。

选举制度中的外链其实应该是放在最前面的,因为这是相对比较民主的一次选举,不像上述的内容相关性一样,内容相关性的选举应该是属于百度内部选举制度,是属于第二次选举,而外链选举是属于第一次选举,网站通过外链来证明自己的同时,证明自己被认可。

说到这里我想到站长很头疼的一个问题,也就是什么样的外链才算是真实有效的?很多seo工作者或多或少应该已经建了不少外链,但是实际效果不得而知。

但是你通过选举制度,你可以排除以下几类人选:

1.剥夺政治权益的。进百度黑名单的。

2.政治地位低下的。此站本身质量低下的。

3.无选举权的。也就是不在收录范围内的。

4.与选举无关的。什么叫与选举无关?这里其实包含了这么几个意思,一是说此站内容相关性不高,二是说此站不是真心选举你的,甚至是不认识你。这也是百度近期的回复中多次提及的内容“真心推荐”。

如果你已经理解了选举制度,相信到这里你会变的相对比较明朗,但是你要非常的清楚去认识一件事情也就是什么样的选举?选举制度可以一次性全员投票,也可以级级选举。

所以说对于外链的建设,本身也是一个选举与被选举的规则,百度官方很有可能近期也会放出外链查询工具,告诉你什么外链有用什么外链没用,我也会在下一期的时候给出相应的工具或者是判断方案。

来源:左倾观测站投稿,原文链接。

来源:月光博客


Public @ 2020-06-20 16:17:26

SEO企业文案思路:给的再多,不如懂我

最近接到了一些SEO优化的单子,本应该是一件“喜极而泣”的事情;大家应该都清楚一个问题,随着SEO行业的发展,用户的需求越来越精确,并且也存在目标明朗但要求苛刻的情况。因此,在今年开展的所有SEO的方案,我都在尽可能的让“用户体验”这个词嵌入我的脑海里。但实际情况是,我身在东莞,这里的SEO并不是没有,但是部分企业对这块其实并没有多少概念。那些跟我对接企业SEO文案的人经常问:“怎么我在你的软文上

Public @ 2016-09-11 15:32:37

域名种类会影响搜索排名吗?

域名种类可能会在某种程度上影响搜索排名,但并不是决定性因素。以下是对几种常见的域名种类的影响分析: 1. .com 域名:由于历史原因和普及度高,很多人认为 .com 域名更为权威,也更容易被记住,因此在搜索排名方面可能会更具优势。 2. 地域性域名 (如 .cn/.uk/.de 等):这种域名在相应的国家或地区拥有强大的代表性,有机会在本地范围内的搜索中排名更高。 3. 新的通用域名 (如

Public @ 2023-06-22 02:00:19

学会利用新闻热点做网站SEO流量,效果让你惊喜

一个网站想要获得巨大的流量,并不是仅仅优化你网站的那几个关键词就可以搞定的。而正确的方式就是要有一定的创意,创意这种东西很少有人能做得到。比方说利用SEO新闻热点获得流量的方式就是其中之一了,这个创意小编在给一些企业做SEO顾问时也有使用过,而且还取得了很不错的效果。关于SEO新闻热点,我们可以在网站新建一个新闻栏目,在里面发布一些行业新闻热点,或者是时事新闻热点,也就是大家所熟悉的蹭热点。一旦这

Public @ 2009-07-02 16:18:34

零基础开启网站SEO的生命周期

我们通过走访各类SEO大牛及自身几万网站做SEO的经验,内部分享下网站从0开始的SEO的生命周期。我们把网站分为6个周期,新站期1-15天,扶持期16-45天,降权期45-90天,上升期90-135天,平稳期135-300天,信任期300后!我们总结出百度每月26号以后会进行一次更新,月中11-16会进行一次更新,每周3会进行一次更新,每天上午9点左右、下午15点左右会进行一次更新。每年的6月底、

Public @ 2018-09-28 16:18:51

更多您感兴趣的搜索

0.428046s