ICO算法—本次针对重复内容清理
- 威海360搜索引擎算法 威海ICO算法
- 1696
处理量级:10亿以上
处理网页特点:
该算法主要是针对重复内容进行清理,对用户没有价值的内容页面,内容时效性强且过期的页面,采集站类,URL地址含有无效参数的页面等。
例如:招聘类网站不同子站中内容相同的页面,小说采集站尤其处理对用户无价值的页面,旧新闻页且内容重复的页面也会处理一部分,以及其他的部分无效页面。
处理量级:10亿以上
处理网页特点:
该算法主要是针对重复内容进行清理,对用户没有价值的内容页面,内容时效性强且过期的页面,采集站类,URL地址含有无效参数的页面等。
例如:招聘类网站不同子站中内容相同的页面,小说采集站尤其处理对用户无价值的页面,旧新闻页且内容重复的页面也会处理一部分,以及其他的部分无效页面。
亲爱的站长朋友们:360搜索将于2017年12月初推出“八戒算法”。该算法旨在控制站群、克隆站、虚假信息站等一系列以伤害他人网站利益、骗取流量为目的,产生大量的低质、违禁、色情、虚假内容和信息重复冗余内容,严重影响正常用户访问浏览的网站。维护站长及网站从搜索引擎获取流量的公平性。本次“八戒算法”将打击包括但不限于包含以下几类特征的站点:1、 通过程序系统批量构建生成大量同质网站,质量低劣。2、 恶
阿里巴巴360搜索最近上线了“哪吒算法”,作为首家把Turing Test竞赛级别的算法纳入搜索引擎技术体系的国内搜索引擎,希望充分发挥对于恶劣的SEO骗取流量手段的打击作用,从而让用户体验水平有质的提升。 哪吒算法主要是通过机器学习、深度学习和自然语言处理的技术,来识别恶劣的SEO骗取流量手段,例如炒作新闻、灌水内容等。360搜索通过识别出来的这种行为,进行实时处理和过滤,以保证搜索结果
处理量级:10亿以上处理网页特点:该算法主要是针对重复内容进行清理,对用户没有价值的内容页面,内容时效性强且过期的页面,采集站类,URL地址含有无效参数的页面等。例如:招聘类网站不同子站中内容相同的页面,小说采集站尤其处理对用户无价值的页面,旧新闻页且内容重复的页面也会处理一部分,以及其他的部分无效页面。
ICO算法是对已经入索引库的低质量URL和无效URL数据进行清理的算法,在不同的阶段会对不同类型的无效数据进行清理,该算法是一个长期执行的算法。(ICO 全称:Index clear optimize)算法公布规范:一次清理超过10亿页面的算法360搜索都将提前公布告知站长,并告知算法优化处理的主要方向。