服务器日志分析策略 北京百度优化公司

网站做好了,开始运行优化,接下来就是日常的维护以及日常的数据分析,其中有一个很重要的数据就是服务器数据分析,服务器数据应该怎样进行分析,这是一个特别重要的问题,今天越视界小编为大家整理了服务器日志分析策略 北京百度优化公司这篇文章希望可以帮到大家。

服务器日志分析策略 北京百度优化公司
服务器日志分析策略 北京百度优化公司

1.类型

所以让我们直接进入它。有三种主要类型的日志,主要类型是Apache。但你也会看到W3C,弹性负载平衡,你可能会看到很多像Kibana这样的东西。但是您也可能会遇到一些自定义日志文件。所以对于那些较大的网站来说,这并不罕见。

记录数据

那么你会在这些日志中看到什么?进来的数据主要是这些有色的数据。

所以你肯定会看到: 

  • 请求服务器IP;
  • 时间戳,表示发出此请求的日期和时间;
  • 请求的URL,以及他们访问的页面;
  • HTTP状态代码,它是200,它解决了,它是301重定向;
  • 用户代理,因此对于我们的SEO,我们只是在看那些用户代理的Googlebot。

 

因此,日志文件传统上包含所有数据,来自个人和流量的所有访问,但我们想要分析Googlebot流量。有时包括方法(获取/发布),然后包括时间,客户端IP和引用者。所以这看起来像是一种愚蠢的人。

 

这是我刚刚编写的一个词,它看起来就像那样。它就像是bleh。那是什么?它看起来很疯狂。这是一种新语言。但基本上你可能会看到IP,因​​此红色IP地址,那个通常看起来像那个时间戳的那个方法(获取/发布),我不完全理解或者必须在某些方面使用分析,但最好知道所有这些事情,请求的URL,状态代码,所有这些事情在这里。

2.分析

那你打算怎么处理这些数据呢?我们如何使用它?所以有很多工具非常适合为你做一些繁重的工作。尖叫青蛙日志文件分析器很棒。我经常使用它。我真的非常喜欢它。但是您必须将日志文件保存为特定类型的格式才能使用它。

 

Splunk也是一个很好的资源。相扑逻辑,我知道还有很多其他人。如果您正在使用非常大的站点,就像我过去一样,那么您将遇到问题,因为它不会出现在常见的日志文件中。所以你能做的就是自己动手做一些,我知道这听起来有点疯狂。

手动Excel分析

但挂在那里。相信我,这很有趣,也很有趣。所以我过去所做的是将CSV日志文件导入Excel,我将使用文本导入向导,您基本上可以描述这些疯狂的分隔符。因此,无论是空格,逗号还是引用,您都可以将它们分解,以便每个人都能在自己的专栏中生活。我不担心有额外的空白列,但你可以将它们分开。从那里,你要做的只是创建数据透视表。所以我可以链接到一个资源,告诉你如何轻松地做到这一点

首页

但基本上你可以在Excel中看到的是:好的,Googlebot按频率命中的首页是什么?这些首页按要求的次数是多少?

热门文件夹

您还可以查看顶级文件夹请求,这非常有趣且非常重要。最重要的是,您还可以查看:访问您网站的最常见的Googlebot类型是什么?它是Googlebot手机吗?是Googlebot图片吗?他们是否打出了正确的资源?超级重要。您还可以使用状态代码执行数据透视表并查看它。我喜欢将一些紫色的东西应用到首页和顶级文件夹报告中。所以现在你已经获得了一些见解:好的,这些首页中的一些是如何解决的?顶级文件夹是什么样的?

您也可以为Googlebot IP执行此操作。这是我在日志文件分析中发现的最好的黑客攻击。我将使用Googlebot IP创建一个数据透视表,就在这里。所以我通常会得到,有时它是一堆,但我会得到所有独特的,我可以在大多数标准计算机上的计算机终端。

 

我试着画它。它看起来像那样。但你所做的只是输入“host”,然后你输入那个IP地址。您可以使用此IP地址在终端上执行该操作,您将看到它已解析为Google.com。这证实它确实是一个Googlebot而不是其他一些欺骗Google的抓取工具。这就是这些工具倾向于自动处理的东西,但也有办法手动完成,这是很好的了解。

3.优化页面和抓取预算

好的,那么如何优化这些数据并真正开始增强抓取预算呢?当我说“抓取预算”时,它主要是指Googlebot进入您网站的次数以及他们通常抓取的网页数量。那是什么呢?抓取预算的样子是什么样的,如何使其更有效率?

  • 服务器错误识别:因此服务器错误识别非常重要。最好关注一些页面上500错误的增加。
  • 404:有效吗?推荐人?:另一件值得关注的事情是Googlebot正在寻找的所有400个。看到这一点非常重要:好的,是400请求,是400有效吗?该页面不存在吗?或者它是一个应该存在但不再存在的页面,但你可以修复吗?如果那里有错误或不存在错误,推荐人是什么?Googlebot如何发现这一点,以及如何开始清理其中的一些内容?
  • 隔离301并修复频繁命中的301链接: 301s,因此在这些日志文件中有很多关于301s的问题。我发现的最好的技巧,我知道其他人已经发现,是隔离和修复最常见的301链。所以你可以在数据透视表中做到这一点。实际上,当您将其与爬网数据配对时,实际上要容易得多,因为现在您可以更深入地了解该链。你可以做的是你可以看看最常见的301s,看看:对于这个链条有没有简单快速的解决方案?有什么东西你可以删除并快速解决,就像一跳或两跳?
  • 移动优先:您可以先关注移动设备。如果您的网站首先使用移动设备,您可以深入研究,进入日志并评估其外观。有趣的是,Googlebot仍然看起来像这个兼容的Googlebot 2.0。但是,它将在括号中包含所有移动含义。所以我相信这些工具可以自动知道这一点。但如果你手动做一些东西,最好知道它看起来像什么。
  • 错过了内容:所以真正重要的是要看一下:什么是Googlebot查找和抓取,以及它们完全缺失了什么?因此,最简单的方法是与您的站点地图进行交叉比较。这是一个非常好的方式来看看可能会错过的内容以及为什么以及如何重新确定站点地图中的数据的优先级,或者尽可能将其集成到导航中。
  • 比较点击率和流量:这是我在Twitter上获得的一个很棒的提示,我不记得是谁说的。他们表示Googlebot点击流量的比较频率。我认为这很棒,因为其中一个,你不仅看到了潜在的相关性,而且还可以看到你可能想要在特定的高流量页面上增加抓取流量或抓取的位置。非常有趣的是看看那个。
  • 网址参数:看看Googlebot是否使用参数字符串访问任何网址。你不希望这样。它通常只是重复的内容或可以在Google Search Console中使用参数部分分配的内容。那么任何电子商务都在那里,绝对要检查出来,并将其全部理顺。
  • 评估天,​​周,月:您可以评估它被击中的天数,周数和月数。那么每个星期三都有一个峰值吗?每个月都有飙升吗?知道这一点很有意思,而不是完全关键。
  • 评估速度和外部资源:您可以评估请求的速度,以及是否有任何可以清理的外部资源,并加快爬网过程。
  • 优化导航和内部链接:您还希望优化该导航,就像我之前所说的那样,并使用该元无索引。
  • Meta noindex和robots.txt不允许:所以如果索引中有你不想要的东西,并且有些东西你不想从你的robots.txt中抓取,你可以添加所有这些东西并开始帮助一些这些东西。

重新评估

最后,将爬网数据与某些数据连接起来确实很有帮助。因此,如果您使用Screaming Frog或DeepCrawl之类的东西,它们允许这些与不同服务器日志文件的集成,并为您提供更多洞察力。从那里,你只想重新评估。所以你想要一遍又一遍地继续这个循环。

查看服务器日志可以更好地判断,百度蜘蛛都抓取爬行了哪些页面,从哪个链接跳出,以方便网站进行优化调整,越视界是一家专业的百度优化公司,电话:4000-565-626.

北京网站优化公司_SEO优化公司_北京新闻发稿_稿件策划撰写_越视界

相关新闻