每种搜索引擎为了更好的服务和内容提供给使用者,他会去认真的爬行每个网站的每个页面,并且把那些对于用户有用的信息页面的url记录起来,还有网站的主要信息。当用户在搜索某个信息时,他就会根据信息找到url,同时提供该页面的快照。这是搜索引擎的工作原理。
那么他是如何抓取页面的呢?
爬虫进入某个页面之后,首先会把头部和底部部分去掉,爬取正文内容,这个时候他就会把正文内容分成几部分,然后每一部分都会和搜索引擎数据库的信息对比,如果都是一样的,搜索引擎则放弃收录,不一样则收录,这也是seo为什么强调原创的一个重要原因。