ASP300源码

ASP300首页 > 站长学堂 > 搜索引擎

搜索引擎抓取蜘蛛是怎么进行工作

2018-07-08 【合肥花卉公司
   关键词+uRL的管理即不断优化关键词列表。关键词列表主要管理两个内容:关键词本身和目标页面URL。关键词和目标页面uRL一一对应,为SEO的落地提供了切实可行的基础。URL可以理解为网络上每个文件的路径,我们打开一个网站页面,在浏览器地址栏看到的一长串字母就是一个URL,。
  随着网站业务的变化,关键词需要不断调整,已经不再关注的关键词需要从表格中删除,新增加的关键词需要补充到表格中。关键词对应的页面URL已经发生了变化的,需要单独更新页面URL。关键词+排名的管理即定期更新关键词的排名信息,动态监控关键词的实际优化效果,为SEO工作的效果评估提供了切实的依据。
  查看关键词的排名,最直接的办法就是在百度或者谷歌搜索这个词汇,然后手动翻阅查看并记录排名,如果目标页面排在搜索结果第一个,那么排名就是l;如果目标结果排名第二个,那么排名结果就是2;一般来说,针对单个搜索词,百度提供760个搜索结果,如果目标页面在这760个结果里面都没有找到,那么就可以认为是没有排名。手动查询+记录这个办法很耗体力,如果管理很多关键词,这是不现实的。
  市场上帮助提供关键词排名查询的工具不少,只需要输入关键词,工具会自动帮助你查询在几个搜索引擎中的排名情况。这种工具的好处是能减少部分人力,但是,对于批量的关键词查询问题,还是没有解决。一些公司自己开展了批量查询的工作,但是经常被搜索引擎发现,被当作Spam(搜索引擎垃圾技术)查询而被封IP。
  不管怎样,每一个关键词排名的变动,随时都牵动SEO的神经。因此,SEO需要周期性地查看关键词的排名情况,以此来定位工作重点并检验SEO方案的效果。
  在查看排名情况的时候,经常需要查看在每个搜索引擎的最好排名和名次数据。
  通过这些排名数据,可以看到SEO的实际效果,如果和竞争对手进行详细比较,就可以知道自己的弱点在哪里了。
  收录的第一个环节就是抓取。抓取的过程是搜索引擎应用程序去抓取网站的网页,这里负责搜索引擎抓取网页职能的程序俗称蜘蛛(Spider),蜘蛛是一个形象的说法,因为互联网就是一张巨大的蜘蛛网,搜索引擎的程序通过网络不断地进行爬行和探索。每个互联网公司都有自己的抓取蜘蛛,比如百度蜘蛛(Baiduspider)、谷歌蜘蛛、搜狗蜘蛛等。
  蜘蛛通过网站提交的Sitemap(网页地图)或者在互联网其他地方留下的页面URL信息,爬行到网站对应页面,然后沿着网站页面其他链接一层层往下爬行,发现更多的页面。
  蜘蛛抓取网页是收录页面工作的上游,通过蜘蛛对网页的抓取,发现更多页面,同时知道哪些页面已经有了更新,从而实现对互联网页面的抓取和持续更新。
  关于蜘蛛抓取系统的工作原理,可以参考百度蜘蛛抓取的说明。
  简而言之,蜘蛛抓取系统包括链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider通过这种系统的通力合作完成对互联网页面的抓取工作。