关注越视界
19-02-20 17:28
多年来,相关研究一直是搜索引擎优化社区的主要内容。每当一项新的研究发布时,一群反对者似乎神奇地从木工中走出来,提醒我们他们从高中统计中记得的一件事 – “相关性并不意味着因果关系”。当然,他们在抗议中是对的,而且值得赞扬的是,那些进行相关性研究的人似乎已经忘记了这种简单的格言。
我们收集搜索结果。然后,我们根据链接数等不同的指标对结果进行排序。最后,我们将原始搜索结果的顺序与不同指标产生的顺序进行比较。它们越近,两者之间的相关性就越高。
话虽如此,相关性研究并不完全没有结果,因为它们不一定能揭示因果关系(即:实际排名因素)。发现或确认的相关性研究是相关的。
相关是与自变量共享某些关系的简单测量(在这种情况下,是页面上搜索结果的顺序)。例如,我们知道反向链接计数是排名顺序的相关性。我们也知道社会份额与排名顺序相关。
相关性研究也为我们提供了关系的方向。例如,冰淇淋销售与温度呈正相关,冬季夹克与温度呈负相关 – 也就是说,当温度上升时,冰淇淋销售量增加,但冬季夹克销售量下降。
最后,相关性研究可以帮助我们排除提出的排名因素。这经常被忽视,但它是相关性研究中非常重要的一部分。提供负面结果的研究通常与产生积极结果的研究一样有价值。我们已经能够使用相关性研究排除许多类型的潜在因素 – 如关键字密度和元关键字标签。
不幸的是,相关研究的价值往往会在那里结束。特别是,我们仍然想知道相关性是否导致排名或是虚假的。杂乱只是一个奇特的“假”或“假”的词。虚假关系的一个很好的例子是冰淇淋销售会导致溺水增加。实际上,夏天的炎热会增加冰淇淋销售和游泳的人。更多的游泳意味着更多的溺水。因此,虽然冰淇淋销售是溺水的相关因素,但它是虚假的。它不会导致溺水。
我们怎样才能弄清楚因果关系和虚假关系之间的区别?我们知道的一件事是,一个原因发生在它的影响之前,这意味着一个因果变量应该预测未来的变化。这是我构建以下模型的基础。
我提出了另一种进行相关性研究的方法。我们可以测量因子与SERP随时间的变化之间的相关性,而不是测量因子(如链接或共享)与SERP之间的相关性。
这个过程是这样的:
在第1天收集SERP
收集该SERP中每个URL的链接计数
查找与链接无关的任何URL对; 例如,如果位置2的链接少于位置3
记录异常
14天后收集相同的SERP
记录异常是否已得到纠正(即:位置3现在超出位置2)
重复一万个关键字并测试各种因素(反向链接,社交分享等)
那么这种方法有什么好处呢?通过观察随时间的变化,我们可以看出排名因子(相关)是否是领先或滞后的特征。滞后功能可以自动排除为因果关系,因为它在排名发生变化后发生。一个主要因素有可能成为一个因果因素,尽管由于其他原因仍可能是虚假的。
我们收集搜索结果。我们记录搜索结果与特定变量的预期预测(如链接或社交共享)的不同之处。然后我们在2周后收集相同的搜索结果,以查看搜索引擎是否已更正无序结果。
按照这种方法,我们测试了排名因子研究产生的3种不同的常见关联:Facebook份额,根链接域数和页面权限。第一步是在关键字资源管理器语料库中从随机选择的关键字中收集10,000个SERP。然后,我们为每个URL记录了Facebook共享,根链接域和页面权限。我们注意到每个例子,其中2个相邻的URL(如位置2和3或7和8)相对于由相关因子预测的预期顺序被翻转。例如,如果#2仓位有30股,而#3仓位有50股,我们注意到该对。您可能希望具有moer份额的页面胜过少量的页面。最后,2周后,我们捕获了相同的SERP,并确定了Baidu重新排列这对URL以匹配预期相关性的次数百分比。我们还随机选择了一对URL,以获得任意两个相邻URL切换位置的基线百分比可能性。结果如下……
值得注意的是,在这样的分析中,期望一个主要因素强烈显示是非常罕见的。虽然实验方法是合理的,但它并不像预测未来的因素那么简单 – 它假设在某些情况下我们会在百度之前了解一个因素。基本假设是,在某些情况下,我们在Baidubot之前已经看到了排名因素(如链接或社交份额的增加),并且在2周时间内,Baidu将赶上并纠正错误排序的结果。正如您所料,这是一个罕见的场合,因为Baidu比其他任何人都更快地抓取网页。但是,通过足够数量的观察,我们应该能够看到滞后和领先结果之间存在统计学上的显着差异。然而,该方法仅检测因子何时领先和 Moz Link Explorer都在Baidu之前发现了相关因素。
因子 | 百分比更正 | P值 | 最低95% | 最高95% |
控制 | 18.93% | 0 | ||
受PA控制的Facebook股票 | 18.31% | 0.00001 | -0.6849 | -0.5551 |
根链接域 | 20.58% | 0.00001 | 0.016268 | 0.016732 |
页面权限 | 20.98% | 0.00001 | 0.026202 | 0.026398 |
为了创建一个控件,我们在第一个SERP集合中随机选择相邻的URL对,并确定第二个将在最终的SERP集合中超过第一个的可能性。大约18.93%的时间,排名较差的网址将超过更好的排名网址。通过设置此控制,我们可以确定任何潜在的相关性是否是主导因素 – 也就是说它们是排名改善的潜在原因,因为它们比随机选择更能预测未来的变化。
Facebook股票表现出三个测试变量中最差的。Facebook股票实际上表现差于随机(18.31%对比18.93%),这意味着随机选择的对将比那些第二股高于第一股的股票更有可能转换。这并不令人惊讶,因为一般的行业共识认为社交信号是滞后因素 – 也就是说来自更高排名的流量推动更高的社交份额,而不是社交份额推动更高的排名。随后,在我们看到社会份额增加之前,我们预计排名会先变化。
原始根连接域计数显着优于共享和对照在~20.5%。正如我之前所说,这种类型的分析非常微妙,因为它只检测到一个因素同时处于领先地位,而Moz Link Explorer在Baidu之前发现了相关因素。尽管如此,这一结果具有统计学意义,P值<0.0001和95%置信区间,RLD将预测未来排名变化大于随机的1.5%左右。
到目前为止,表现最高的因素是Page Authority。在21.5%时,PA正确预测SERP的变化比随机变化好2.6%。这是一个主导因素的强烈迹象,大大优于社交份额,并超越最佳预测原始指标,根链接域。这并不奇怪。页面权限是为了预测排名而构建的,因此我们应该期望它在确定何时可能发生排名变化时优于原始指标。现在,这并不是说百度使用Moz Page Authority对网站进行排名,而是说Moz Page Authority是Baidu用于确定排名网站的任何链接指标的相对较好的近似值。
有许多不同的实验设计我们可以用来帮助改善我们在整个行业的研究,这只是帮助我们梳理因果排名因素和滞后关联之间差异的方法之一。实验设计不需要详细说明,确定可靠性的统计数据不需要是最先进的。虽然机器学习为改进我们的预测模型提供了很多希望,但是当我们建立基础时,简单的统计数据可以起到作用。
现在,走出去做一些很棒的研究!
— THE END —
标签:SEO优化