要想获得好的搜索引擎排名,页面被收录是一个基础条件。网站优化过程中了解搜索引擎的收录机制,值得我们研究。
搜索引擎的蜘蛛有两种,第一种蜘蛛的工作是收集网页中有效的URL,它们一刻不停地扫描互联网,随时发现新的URL,以提供给第二种蜘蛛使用。也就是说,第一种蜘蛛并不是为了收录网页,而是寻找网页中所有的有效链接。第二种蜘蛛索引时记录的信息主要包括网页的URL、最终修改时间等。对于一些小站的网页,只要第二种蜘蛛开始索引网页,即使整个收录过程还没有完成,相应的网页也有可能已经出现在搜索引擎的索引库中。
因此,对一个新网站而言,将你的首页URL出现在已经被收录,并且更新比较块的网站上,可以引诱蜘蛛,加速网页收录速度。因为蜘蛛会频繁访问更新快的网页,并发现你的URL,进而进入到你的网站。
影响页面收录的还有一个关健的问题,就是内容的原创度。复制页面和高重复度页面,都有可能造成长期不被收录。搜索引擎喜欢原创文章,但如果你的文章发布在自己的网站上,还没被收录,就被其他站长给转载了。你的站是新站,权重没对方网站高,对方收录了你还没收录,这就很可能被搜索引擎误判为对方的原创文章。这是一个无奈的问题。
还有就是网站改版问题。大规模的网站改版,比如对结构方面的调整,造成页面URL地址的变化,会对搜索引擎对网站的收录造成很大的冲击。原有的收录页面可能会变成死链接,搜索引擎会逐渐清除这些页面。对拥有大量收录页面的站点,轻易不要进行结构方面的变化。网站频繁改版,百度会暂时停止网站的快照更新,等一段时间后,重新计算网页权重及外链质量,再开始更新快照,并调整网站新的排名。
搜索引擎的收录问题研究-原文由北京google推广提供!