详情页

搜索引擎Spider蜘蛛爬虫抓取介绍

时间:2023年12月02日

编辑:佚名

Spider也就是大家所说的爬虫,蜘蛛或机器人。是处于整个搜索引擎最上游的模块,只有Spider抓回的页面和URL,才会被索引和参与排名。需要注意的是,只要Spider抓到的URL,都可能会参与排名,但参与排名的网页并不一定被Spider抓取了内容,比如有些网站屏蔽了搜索引擎Spider,不能抓取网页内容,但是会有一些域名的URL,在搜过引擎中参与排名,(例如天猫上的很多独立域名的店铺)。根据搜索引擎的不同,Spider也会有不同的分类,大型搜索引擎都会有以下需要解决的问题,也是和SEO有密切相关的问题。
首先Spider要想抓取网页就要发现网页抓取入口,没有抓取入口也就没有办法继续工作,所以首先要给到一些网页入口,然后Spider对这些入口进行查询抓取,这里就涉及到抓取的策略问题,抓取策略的选择会直接影响Spider所需要的资源,Spider所抓取网页占全网网页的比例,Spider工作效率,那么Spider一般会采取什么样的策略抓取网页呢。
其次网页内容也是有时效性的,所以Spider对不同网页的抓取频率也有一定的策略性,否则可能会使得索引库中的内容都很陈旧,或者该更新的没有更新该更新的全浪费资源更新了,甚至还会出现该网页已经被删除,但是该页面还处在搜索结果中的情况,Spider一般会使用什么样再次抓取和更新策略呢。
再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”。并且这部分网页也是需要呈现给广大网民浏览的,此时Spider就要想方设法针对处于暗网中的网页进行抓取,当下百度如何来处理这个暗网的问题呢?
最后,大型搜索引擎,Spider不可能只有一个,为了节约资源,要保证多个Spider同时抓取,且抓取页面不重复,又由于各地Spider分配问题,搜索引擎一般不会Spider放在同一个地区。会多地区进行同时抓取,这么就需要设计分布式抓取的策略问题,那么一般搜索引擎的发展,而会采取怎么样的分步抓取策略?
相关文章
猜你需要