搜索引擎工作流程_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网_ChatGPT

Categories

Tags

搜索引擎工作流程

搜索引擎工作流程主要有数据采集、数据预处理、数据处理、结果展示等阶段。在各工作阶段分别使用了网络爬虫、中文分词、大数据处理、数据挖掘等技术。

网络爬虫也被称为蜘蛛或者网络机器人，它是搜索引擎抓取系统的重要组成部分。网络爬虫根据相应的规则，以某些站点作为起始站点通过各页面上的超链接遍历整个互联网，利用URL弓I用根据广度优先遍历策略从一个html文档爬行到另一个html文档来抓取信息。

中文分词是中文搜索引擎中一个相当关键的技术，在创建索引之前需要将中文内容合理的进行分词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

大数据处理技术是通过运用大数据处理计算框架，对数据进行分布式计算。由于互联网数据量相当庞大，需要利用大数据处理技术来提高数据处理的效率。在搜索引擎中，大数据处理技术主要用来执行对网页重要度进行打分等数据计算。

数据挖掘就是从海量的数据中采用自动或半自动的建模算法，寻找隐藏在数据中的信息，是从数据库中发现知识的过程。数据挖掘一般和计算机科学相关，并通过机器学习、模式识别、统计学等方法来实现知识挖掘。在搜索引擎中主要是进行文本挖掘，搜索文本信息需要理解人类的自然语言，文本挖掘指从大量文本数据中抽取隐含的、未知的、可能有用的信息。

Public @ 2017-09-27 16:22:24

百度搜索引擎工作原理-3-检索排序

搜索引擎索引系统概述众所周知，搜索引擎的主要工作过程包括：抓取、存储、页面分析、索引、检索等几个主要过程。上一章我们主要介绍了部分抓取存储环节中的内容，此章简要介绍一下索引系统。在以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针，也许一定的时间内可以完成查找，但是用户等不起，从用户体验角度我们必须在毫秒级别给予用户满意的结果，否则用户只能流失。怎样才能达到这种要求呢？如果能知道用户查找的关

Public @ 2022-09-15 16:21:46

百度搜索引擎工作原理-1-抓取建库

Spider抓取系统的基本框架互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为：Baiduspdier、Googlebot、Sogou Web Spider等。Spider抓取系统是搜索

Public @ 2014-12-20 16:21:47

搜索引擎的工作原理

搜索引擎的工作原理可以简单地概括为以下几个步骤： 1. 搜索引擎的爬虫程序从网络上收集网页并建立一个索引，这个索引包括每个网页的关键词、标题、链接等信息。 2. 用户输入搜索关键词，搜索引擎会根据这个关键词来查找索引，找到与该关键词相关的网页。 3. 搜索引擎会对这些相关网页进行排序，通常是按照重要性和相关性等因素来排序，然后呈现给用户。 4. 用户点击搜索结果中的链接，进入相应网页。

Public @ 2023-04-17 07:00:08

搜索引擎工作的基础流程与原理

搜索引擎最重要的是什么？有人会说是查询结果的准确性，有人会说是查询结果的丰富性，但其实这些都不是搜索引擎最最致命的地方。对于搜索引擎来说，最最致命的是查询时间。试想一下，如果你在百度界面上查询一个关键词，结果需要5分钟才能将你的查询结果反馈给你，那结果必然是你很快的舍弃掉百度。搜索引擎为了满足对速度苛刻的要求（现在商业的搜索引擎的查询时间单位都是微秒数量级的），所以采用缓存支持查询需求的方式，也就

Public @ 2017-02-18 16:21:54

更多您感兴趣的搜索

基本文件流程错误 SQL 调试

/www/wwwroot/bninc.cn/public/index.php ( 0.79 KB )
/www/wwwroot/bninc.cn/public/public.php ( 1.08 KB )
/www/wwwroot/bninc.cn/thinkphp/start.php ( 0.73 KB )
/www/wwwroot/bninc.cn/thinkphp/base.php ( 2.66 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Loader.php ( 19.47 KB )
/www/wwwroot/bninc.cn/vendor/composer/autoload_namespaces.php ( 0.21 KB )
/www/wwwroot/bninc.cn/vendor/composer/autoload_psr4.php ( 0.84 KB )
/www/wwwroot/bninc.cn/vendor/composer/autoload_classmap.php ( 0.14 KB )
/www/wwwroot/bninc.cn/vendor/composer/autoload_files.php ( 0.42 KB )
/www/wwwroot/bninc.cn/vendor/qiniu/php-sdk/src/Qiniu/functions.php ( 7.10 KB )
/www/wwwroot/bninc.cn/vendor/qiniu/php-sdk/src/Qiniu/Config.php ( 0.70 KB )
/www/wwwroot/bninc.cn/vendor/topthink/think-captcha/src/helper.php ( 1.59 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Route.php ( 59.82 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Config.php ( 6.03 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Validate.php ( 40.27 KB )
/www/wwwroot/bninc.cn/vendor/topthink/think-queue/src/config.php ( 0.77 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Console.php ( 21.22 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Error.php ( 3.59 KB )
/www/wwwroot/bninc.cn/thinkphp/convention.php ( 10.31 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/App.php ( 21.04 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Request.php ( 50.94 KB )
/www/wwwroot/bninc.cn/app/config.php ( 11.25 KB )
/www/wwwroot/bninc.cn/app/database.php ( 1.41 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Hook.php ( 4.76 KB )
/www/wwwroot/bninc.cn/app/tags.php ( 1.16 KB )
/www/wwwroot/bninc.cn/app/common/behavior/InitBase.php ( 8.17 KB )
/www/wwwroot/bninc.cn/app/common.php ( 23.29 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Env.php ( 1.25 KB )
/www/wwwroot/bninc.cn/thinkphp/helper.php ( 17.86 KB )
/www/wwwroot/bninc.cn/app/function.php ( 0.78 KB )
/www/wwwroot/bninc.cn/app/extend.php ( 13.29 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Debug.php ( 7.06 KB )
/www/wwwroot/bninc.cn/app/common/model/Config.php ( 0.78 KB )
/www/wwwroot/bninc.cn/app/common/model/ModelBase.php ( 12.18 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Model.php ( 66.83 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Db.php ( 6.54 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Log.php ( 5.84 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/db/connector/Mysql.php ( 3.94 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/db/Connection.php ( 29.97 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/db/Query.php ( 86.80 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/db/builder/Mysql.php ( 2.16 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/db/Builder.php ( 30.47 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Cache.php ( 6.17 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/cache/driver/File.php ( 7.46 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/cache/Driver.php ( 5.52 KB )
/www/wwwroot/bninc.cn/app/common/behavior/InitHook.php ( 1.25 KB )
/www/wwwroot/bninc.cn/app/common/model/Hook.php ( 0.77 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Lang.php ( 6.95 KB )
/www/wwwroot/bninc.cn/thinkphp/lang/zh-cn.php ( 3.85 KB )
/www/wwwroot/bninc.cn/app/route.php ( 0.91 KB )
/www/wwwroot/bninc.cn/app/index/config.php ( 0.96 KB )
/www/wwwroot/bninc.cn/app/index/common.php ( 0.68 KB )
/www/wwwroot/bninc.cn/app/index/controller/Wiki.php ( 2.44 KB )
/www/wwwroot/bninc.cn/app/index/controller/IndexBase.php ( 1.10 KB )
/www/wwwroot/bninc.cn/app/common/controller/ControllerBase.php ( 4.75 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Controller.php ( 6.20 KB )
/www/wwwroot/bninc.cn/thinkphp/library/traits/controller/Jump.php ( 4.97 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/View.php ( 6.86 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/view/driver/Think.php ( 5.61 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Template.php ( 46.46 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/template/driver/File.php ( 2.24 KB )
/www/wwwroot/bninc.cn/app/index/logic/Wiki.php ( 6.16 KB )
/www/wwwroot/bninc.cn/app/index/logic/IndexBase.php ( 0.79 KB )
/www/wwwroot/bninc.cn/app/common/logic/LogicBase.php ( 0.83 KB )
/www/wwwroot/bninc.cn/app/common/model/Article.php ( 0.78 KB )
/www/wwwroot/bninc.cn/app/common/model/ArticleTongji.php ( 0.79 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/paginator/driver/Bootstrap.php ( 5.90 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Paginator.php ( 9.45 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Collection.php ( 8.63 KB )
/www/wwwroot/bninc.cn/runtime/temp/fd12b1d7af823e9ae53201dacc6a6621.php ( 56.49 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/Response.php ( 8.64 KB )
/www/wwwroot/bninc.cn/thinkphp/library/think/debug/Html.php ( 4.27 KB )

[ DB ] CONNECT:[ UseTime:0.021927s ] mysql:dbname=briline.net;host=106.14.77.182;port=3306;charset=utf8
[ SQL ] SHOW COLUMNS FROM `ob_article` [ RunTime:0.015624s ]
[ SQL ] SELECT * FROM `ob_article` WHERE `id` = 5372 LIMIT 1 [ RunTime:0.014691s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article', 'type' => 'const', 'possible_keys' => 'PRIMARY', 'key' => 'PRIMARY', 'key_len' => '4', 'ref' => 'const', 'rows' => 1, 'extra' => NULL, ) ]
[ SQL ] select * from `ob_article_tongji` where category_id=12 and mark_type='cate' order by times desc limit 15 [ RunTime:0.015110s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article_tongji', 'type' => 'ALL', 'possible_keys' => NULL, 'key' => NULL, 'key_len' => NULL, 'ref' => NULL, 'rows' => 608, 'extra' => 'Using where; Using filesort', ) ]
[ SQL ] select * from `ob_article_tongji` where category_id=12 and mark_type='tags' order by times desc limit 100 [ RunTime:0.015094s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article_tongji', 'type' => 'ALL', 'possible_keys' => NULL, 'key' => NULL, 'key_len' => NULL, 'ref' => NULL, 'rows' => 608, 'extra' => 'Using where; Using filesort', ) ]
[ SQL ] select * from `ob_article_tongji` where category_id=12 and mark_type='tags' order by rand() limit 30 [ RunTime:0.015140s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article_tongji', 'type' => 'ALL', 'possible_keys' => NULL, 'key' => NULL, 'key_len' => NULL, 'ref' => NULL, 'rows' => 608, 'extra' => 'Using where; Using temporary; Using filesort', ) ]
[ SQL ] SELECT * FROM `ob_article` WHERE `id` = 5372 LIMIT 1 [ RunTime:0.014682s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article', 'type' => 'const', 'possible_keys' => 'PRIMARY', 'key' => 'PRIMARY', 'key_len' => '4', 'ref' => 'const', 'rows' => 1, 'extra' => NULL, ) ]
[ SQL ] update `ob_article` set views=views+2 where id=5372 [ RunTime:0.017024s ]
[ SQL ] SELECT COUNT(*) AS tp_count FROM `ob_article` WHERE `category_id` = 12 AND `cate` = '威海搜索引擎工作原理' AND `status` <> -1 LIMIT 1 [ RunTime:0.021589s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article', 'type' => 'ALL', 'possible_keys' => NULL, 'key' => NULL, 'key_len' => NULL, 'ref' => NULL, 'rows' => 9562, 'extra' => 'Using where', ) ]
[ SQL ] SELECT * FROM `ob_article` WHERE `category_id` = 12 AND `cate` = '威海搜索引擎工作原理' AND `status` <> -1 ORDER BY rand() LIMIT 0,2 [ RunTime:0.045827s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article', 'type' => 'ALL', 'possible_keys' => NULL, 'key' => NULL, 'key_len' => NULL, 'ref' => NULL, 'rows' => 9562, 'extra' => 'Using where; Using temporary; Using filesort', ) ]
[ SQL ] SELECT COUNT(*) AS tp_count FROM `ob_article` WHERE `category_id` = 12 AND `tags` = '威海搜索引擎工作原理' AND `status` <> -1 LIMIT 1 [ RunTime:0.021518s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article', 'type' => 'ALL', 'possible_keys' => NULL, 'key' => NULL, 'key_len' => NULL, 'ref' => NULL, 'rows' => 9562, 'extra' => 'Using where', ) ]
[ SQL ] SELECT * FROM `ob_article` WHERE `category_id` = 12 AND `tags` = '威海搜索引擎工作原理' AND `status` <> -1 ORDER BY rand() LIMIT 0,2 [ RunTime:0.030621s ]
[ EXPLAIN : array ( 'id' => 1, 'select_type' => 'SIMPLE', 'table' => 'ob_article', 'type' => 'ALL', 'possible_keys' => NULL, 'key' => NULL, 'key_len' => NULL, 'ref' => NULL, 'rows' => 9562, 'extra' => 'Using where; Using temporary; Using filesort', ) ]

0.448582s

ShowPageTrace