SEO是研究搜索引擎的,在了解搜索引擎对关键词的排名原理,才能做好SEO优化。简单的看下面的图,将搜索引擎的排名过程分为三个阶段:爬行抓取网页信息、索引、在终端显示排名。
一、爬行、抓取、收集数据
搜索引擎蜘蛛工作过程:种子页面出发,不断的抓取链接—发现链接—抓取,同时将抓取到数据存入数据库中。
搜索引擎蜘蛛的遵行基本的爬行策略:广度优先、深度优先。
互联网是由相互连接的页面组成,在理论上,蜘蛛是可以抓取到互联网上所有的页面。但是实际运行时受带宽资源、时间等硬件条件的限制,搜索引擎蜘蛛只能尽全力的多发现页面。为了提高爬取效率,蜘蛛会优先从网站导航、分类目录这样的聚合页面出发。在进入网扎之前,蜘蛛会优先读取网站根目录下的robots文件,只抓取robots文件允许访问的页面。
二、索引
蜘蛛抓取到的页面并不能直接作为排名结果放出,需要经过去除标签、提取有效内容。这是一个极其复杂的过程,我们可以简单的理解为蜘蛛用分词算法去除页面中的停止词、重复词,找出页面中的特征文字;使用特定的编号顺序,建立这些关键词与页面的索引,形成索引词库。一般来说,建立索引有两种方式:正向索引、倒排索引,配合使用事排序结果更为精确。
三、终端显示排名
用户在搜索引擎内输入需求关键词时,搜索引擎会关键词进行分词、矫正错、去噪等操作,最终的结果触发数据库中的关键词索引,搜索结果按照既定的排名规则呈现出来。