北京SEO公司:如何让百度蜘蛛高效的抓取企业网站? - 越视界 北京SEO公司:如何让百度蜘蛛高效的抓取企业网站? - 越视界
联系电话:4000-565-626

当前位置: 越视界 > 新闻资讯 > 如何让百度蜘蛛高效的抓取企业网站?

关注整合营销传播越视界

关注越视界

如何让百度蜘蛛高效的抓取企业网站?

19-02-20 20:47

企业站点的 URL可以是数百万,数千万甚至数亿。

时间和资源不可能完全爬行到那么大的站点。

因此,在爬行庞大的网站时,您需要获得一套自己的策略。

在这篇文章中,我将介绍一种时间有效的方法来抓取更大的网站,以便您可以用更少的资源挤出更及时的见解。

如何让百度蜘蛛高效的抓取企业网站

企业搜索引擎优化的挑战

对于与企业业务合作的SEO专业人员,通常需要更大的预算,但这些网站的庞大规模意味着时间和资源仍然至关重要。

企业站点的 URL可以是数百万,数千万甚至数亿。

时间和资源不可能完全爬行到那么大的站点。

因此,在爬行庞大的网站时,您需要获得战术。

在这篇文章中,我将介绍一种时间有效的方法来抓取更大的网站,以便您可以用更少的资源挤出更及时的见解。

你应该如何爬行企业网站?

虽然爬行企业站点的前景可能令人生畏,但幸运的是,通常不需要抓取站点上的每个页面。

在大多数情况下,您只需要足够的数据来验证问题,这并不一定意味着获取完整的数据集。

这种方法称为分段爬行,涉及将您的站点分解为较小的部分,这些部分仅包括理解土地布局所需的必要区域和页面数量。

分段抓取

您可以将分段抓取视为不完整的图片。

它可能不完整,但你仍然可以解决整体要点,尽管没有完整的图片。

同样,您可以设计由精心选择的URL分组组成的分段,这些分组可以帮助您了解网站的主要趋势和模式,而无需抓取每个网址。

分段抓取是一种出色的解决方案,可让您绕过处理大型网站时遇到的规模和时间限制。

分段抓取完全是为了组合可能的最小段,这将为您提供整个网站的代表性图片。

创建这些细微差别和最小细分的细分无法在一夜之间实现。

获得对企业站点的透彻理解需要时间,这在某种程度上将取决于您正在运行的约束。

你的约束是什么?

初始爬网的范围将在某种程度上由您可用的时间和资源决定。

您需要根据获取洞察的速度以及抓取网站所需资源的数量来设置抓取时间。

分段爬行归结为数据完整性与洞察的及时性之间的权衡。

阶段1:设计细分

现在我们知道在爬网企业站点之前需要考虑的分段爬网和一些注意事项,让我们来看看如何设计这些分段爬网。

设置样本爬网

要初步了解网站,值得对大约100,000个网址进行不受限制的示例抓取。

通过第一次抓取,您可以查看无用的URL(例如分面页面,带参数的URL等),这样您就可以将它们从以后的抓取中排除,而不会浪费更多资源来抓取类似的垃圾URL。

在您的设置中过滤掉示例抓取中的所有垃圾网址后,您将需要运行最大的抓取,以尽可能多地获取有意义的网址样本。

这次抓取将是您在单次抓取过程中最接近网站完整图片的抓取方式,从此处,您将希望了解如何将网站切割为更具针对性的细分市场。

切片你的网站

您可以通过以下几种方式对网站进行细分,以便从抓取中获得更有针对性的洞察力。

垂直切片或单通道/部分

您可以采用站点的垂直切片,这将为您提供网站每个级别的一些URL样本,并显示它们的连接方式。

如果您只对网站的特定部分感兴趣,那么您可以限制抓取仅查看网站的该部分。

例如,发布者可能只想评估其网站上特定新闻部分的状态,或者B2B网站可能想要评估其博客的性能。

此方法还可以应用于分析站点的移动版本,您可能希望将其与桌面爬网分开。

有限级别爬网

爬行指定数量的网站级别是一种很好的方法,可以很好地感受网站的广度,而不会丢失网址兔子洞并不必要地抓取低位网址。

例如,如果您要抓取具有多个语言版本的国际站点,则可能只想最初爬网前三个级别以查看站点不同语言版本的连接方式。

分类/所有分类

另一种方法是对类别或站点分类进行爬网,以获得显示网站核心结构或体系结构的切片,但不包括分页集等页面组。

在分析具有复杂分类的电子商务网站或其他网站时,这可能是一种有用的方法。

页面模板

另一种资源有效的方法是仅抓取不同的页面模板。

与网站上的网址总数相比,网站的网页类型数量有限。

每个页面模板的爬行实例将使您很好地理解存在的关键问题,解决这些问题可能会使使用该模板的所有页面受益。

建立频繁和专注的基准爬行

决定如何切割网站以进行分析将取决于网站的性质以及您希望实现的目标,这可能涉及上述不同方法或其他方法的组合。

一旦您设置了不同的细分,您就会开始更好地理解网站,并且能够优化这些爬网的范围,使其尽可能具有针对性。

理想情况下,您希望能够建立大量有针对性的基准爬行,其中包含可以定期运行的小段(~10k URL)(每周都是理想的),以及需要测试版本时的临时爬行。

阶段2:创建分段抓取

现在我们已经探索了一些可用于对您的网站进行分段以进行审核的方法,让我们采用更实际的方法来创建这些细分。

重申一下,大型站点的体系结构非常不同,因此您需要了解站点的特定模式,以便有效地对其进行爬网。

我们已经介绍了部分抓取网站的一些不同方法,这包括运行多次抓取以缩小您的注意力以实现有针对性的基准抓取。

您可以通过以下方法限制抓取范围以创建细分。

免责声明:我为DeepCrawl工作,并将使用我们工具中的一些示例,因为它是我最熟悉的爬虫。但是,这并不是说您无法与其他抓取工具实现相同的结果。

域范围

企业站点可以覆盖位于不同域和/或子域中的许多单独的业务单元。

除非您正在进行探索性爬网,否则您可能希望包含一些规则来定义域范围。这可以通过以下方式实现:

  • 选择首选域映射。

  • 定义排除规则以禁止对不会构成审核一部分的网站部分进行爬网。相反,您可能希望为要包含在爬网中的站点的特定部分创建包含规则。

  • 配置抓取以使用移动用户代理分析单独的移动网站。

排除

让您的抓取更加专注的一种方法是在理解页面后使用排除规则和包含规则。大型网站几乎总是由大量数据项组成。

通常有一个特殊的事情导致企业网站拥有数百万个URL(例如,拍卖网站上的项目页面)。

因此,这些数据项可能具有很多共性,这意味着它们并不都需要被抓取。

向下挖掘以找出对网站没有贡献的内容,以便将来排除它是一种减少爬网大小的好方法,使您能够更有效地进行爬网。

例如,当我们的团队开始使用大型评论网站时,他们首先抓取几个公司资料页面以了解内部链接。

一旦理解了这些页面上的链接模式,就意味着不再需要抓取每个公司简介页面,因为团队可以推断这些知识以了解所有公司简介页面。

参数删除

从抓取中删除这些垃圾网址的另一种方法是为参数不会更改内容的网页设置排除规则。

这些网址会不必要地增加抓取的大小,如果Baidu没有抓取这些网页,那么您也不应该抓取这些网页。

下面的示例显示了一个排除规则,这意味着不会抓取任何包含UTM参数的网址。

排除特定参数的替代方法是排除具有超过指定数量参数的URL。

例如,如果要排除包含5个或更多参数的URL,可以使用以下正则表达式字符串:

“?[^&] +([^&] +){4,}”

分页

分页是爬行不必要地增加大小的另一个原因。

如果不设置任何规则,爬虫(和搜索引擎机器人)可能会浪费时间爬行不提供任何有价值内容的分页集,更重要的是,在这种情况下,不要进一步了解该网站。

这可以通过排除大多数分页系列的正则表达式字符串轻松解决。

例如,您可以添加一个规则,将爬网限制为分页集中的前三个页面,因为通常没有什么新东西需要学习。

以下示例中概述的排除规则将排除除前三页之外的所有内容,作为爬网的一部分。

采样

一种稍微不同的方法可以减少爬网的大小。

使用给定的一组规则,您可以指定仅实际爬网页面样本,而不是运行查看所有页面的爬网。

采样很有用,因为您不需要抓取每个页面来了解网站的问题,这些网页中较小的一部分通常会产生相同的见解,但速度更快,资源使用更少。

例如,希望了解数百万个项目页面的大型列表网站可以选择通过使用DeepCrawl的页面分组功能来抓取其中10%的样本,以便在不抓取每个页面的情况下识别关键问题。

排除移动/ MIP

以前,我提到您可能希望将网站的移动版和桌面版保留在单独的抓取中。

这可以在抓取设置期间通过排除对移动和MIPHTML备用标记中的URL的抓取进行配置。

进行此排除将有助于您分离桌面,移动和MIP页面的爬网。

排除Nofollowed页面

您可能需要考虑的进一步排除是对nofollow链接的爬行。

如果链接是nofollowed,那么该页面不用于爬网或索引,因此,不需要成为审计的一部分。

在爬网设置中,您可以选择禁用爬网nofollow链接的选项。

包括外部数据

在爬网之上分层外部数据可为所有大小不一的站点提供大量有用的见解。

但是,对于企业站点,您需要注意,即使限制爬网范围将自动过滤来自外部数据源的所有URL,仍然需要首先从API检索数据,或手动上载数据。

预过滤数据意味着您可以节省一些时间,因此您可以通过以下方式执行此操作:

自定义搜索控制台属性

在Search Console中,您可以创建自定义属性(如子文件夹)以分解大型数据集并加快爬网过程。

站点地图

没有必要将所有站点地图包含在分段抓取的一部分中。

仅包含相关的站点地图会更有效。

日志文件和分析

使用包含规则,通常可以生成过滤后的日志摘要报告,该报告仅包含爬网中URL的数据。

— THE END —

标签:SEO优化

相关推荐:
企业名称变更公告
越视界内容营销:传播有价值的信息给有需求的用户
17个简单有效的SEO品牌调整方案
北京SEO优化:如何为您的文章获得最多的链接(内链)
北京SEO优化:如何构建SEO内容?
cache
Processed in 0.002855 Second.