搜索引擎蜘蛛,是每位SEOer都会接触且必须学习的网站优化基础知识之一。但是,很多SEOer,尤其是刚接触这行的朋友,对搜索引擎蜘蛛也只是仅仅知道,其与网站排名和网站权重的关系。下面,Inspirr Creation将会为大家详细介绍搜索引擎蜘蛛的相关内容,希望对各位SEOer有所帮助。
什麽是搜索引擎蜘蛛?
搜索引擎蜘蛛,其实就是按照一定规则、自定抓取互联网信息的程序组件或脚本程序,简单来说就是,在搜索引擎中,搜索引擎蜘蛛就是搜索引擎发现和抓取网站的自动化程序。
搜索引擎蜘蛛出现的背景?
搜索引擎蜘蛛的出现主要是因为,在互联网信息大爆炸时代,人们已不能满足於仅仅依靠开放目录等传统方式在网络上寻找想要的内容,於是搜索引擎利用搜索引擎蜘蛛这一程序去挖掘用户想要的内容,来满足不同用户的不同需求。
搜索引擎蜘蛛将要面临的问题
搜索引擎架构的两大目标就是效果和效率,而这也是搜索引擎蜘蛛的根本要求。面对数以亿计的网页数量,以及大量重复内容页面,搜索引擎蜘蛛为了提高效率和效果,就需要在一定时间内收获更多的高质量页面,而摒弃原创度低、内容低劣等低质量页面。
但值得注意的是,由於大站效应,一些大型网站发布出来的文章,尽管不是首发,但排名依然很好,甚至会比首发网站的排名更加好。
搜索引擎蜘蛛的分类和策略
搜索引擎蜘蛛的种类有很多,下面Inspirr Creation为大家简单地介绍几种:
1.通用搜索引擎蜘蛛:又叫「全网搜索引擎蜘蛛」,是从一些种子网站开始爬行,逐步扩展到整个互联网。
策略:广度优先策略和广度优先策略。
2.聚焦搜索引擎蜘蛛:又称为「主题搜索引擎蜘蛛」,预先选择一个或几个相关主题,仅爬行并抓取这一类的相关页。
策略:聚焦搜索引擎蜘蛛增加了链接和内容评价模块,所以其爬行策略的关键是评价页面的链接和内容後再进行爬行。
3.增量式搜索引擎蜘蛛:指对已经收录的页面进行更新、爬行新页面和发生变化的页面。
策略:广度优先策略和PageRank优先策略等。
4.Deep Web搜索引擎蜘蛛:可以爬行并抓取的页面称之为「表层网页」,某些不能通过静态链接获得的页面称之为「深层网页」,Deep Web爬虫就是抓取深层网页的爬虫体系。
策略:深度优先策略
一般来说,搜索引擎蜘蛛的抓取策略主要分为三种:
广度优先:搜索完当前页面所有链接,才开始进入下一层。
最佳优先:根据一定的网页分析算法,优先抓取更具有价值的页面。
深度优先:顺着一个链接一直爬行,直到某一页面再也没有链接,再开始爬行另外一条,但由於搜索引擎蜘蛛一般都是从种子网站开始抓取,这种抓取策略容易造成抓取页面质量越来越低,因此这种策略使用较少。
看了以上的内容,相信大家对搜索引擎蜘蛛已经不仅仅是停留在网站排名和权重等SEO优化问题,而是有一个更深入的了解。了解搜索引擎蜘蛛的抓取问题,这对日後网站优化和网站运营上都能有更好的帮助。