关注越视界
19-02-14 15:47
网站的信息结构在其可抓取性方面起着至关重要的作用。
例如,如果您的网站具有未与其他任何地方链接的网页,则网页抓取工具可能难以访问这些网页。
当然,他们仍然可以通过外部链接找到这些页面,前提是某人在其内容中引用了这些页面。但总的来说,弱结构可能会导致可爬行性问题。
网络爬虫通过以下链接在网络上传播,就像您在任何网站上一样。因此,它只能从其他内容中找到您链接到的页面。
因此,良好的内部链接结构将使其能够快速到达您网站结构深处的那些页面。但是,糟糕的结构可能会将其发送到死胡同,从而导致网络爬虫错过了您的某些内容。
损坏的页面重定向会阻止Web爬网程序进入其轨道,从而导致可爬网问题。
同样,损坏的服务器重定向和许多其他与服务器相关的问题可能会阻止Web爬网程序访问您的所有内容。
您在网站上使用的技术可能会导致可追溯性问题。例如,由于抓取工具无法遵循表单,因此对表单后面的内容进行选通将导致可抓取性问题。
各种脚本(如Javascript或Ajax)也可能会阻止Web爬网程序中的内容。
最后,您可以故意阻止网页抓取工具对您网站上的网页编制索引。
这样做有一些很好的理由。
例如,您可能已创建了要限制公共访问的页面。作为阻止访问的一部分,您还应该阻止它访问搜索引擎。
但是,也很容易错误地阻止其他页面。例如,代码中的一个简单错误可能会阻止整个网站部分。