北京SEO优化,如何使用.htaccess拦截搜索引擎蜘蛛、网站机器人 - 越视界 北京SEO优化,如何使用.htaccess拦截搜索引擎蜘蛛、网站机器人 - 越视界
联系电话:4000-565-626

当前位置: 越视界 > 新闻资讯 > 如何使用.htaccess拦截搜索引擎蜘蛛、网站机器人

关注整合营销传播越视界

关注越视界

如何使用.htaccess拦截搜索引擎蜘蛛、网站机器人

19-02-20 13:51

机器人在网络上非常普遍。事实上,截至2012年,网站机器人的流量超过了网络上的人流量。那就对了; 平均来说,网站上的点击率超过50%来自机器人而非人类。北京SEO优化认为机器人有广泛的用途,并不是所有的都是坏的。除了搜索引擎机器人。

机器人有更多的利基用途。有一些机器人只是为了抓取电子商务网站,寻找交易优化网站。他们将每个可以找到的电子商店与给定产品进行交叉参考,以便家庭网站可以在各种商店中显示该产品的价格。有些网站会使用这些来确保他们位列榜首,这就是为什么很多亚马逊上市会每天逐渐下降几美分; 竞争的卖家每次通过将价格调低一两便士而相互淘汰。

其他机器人不那么温和。垃圾邮件机器人将搜索博客,寻找他们知道如何利用各种评论系统。没有身份验证或验证码的评论可以通过机器人填写,垃圾评论可以留下来建立链接汁到垃圾邮件网站,捕捉无知的网络用户的点击,甚至用负面的SEO炸弹本来是良性的网站。

黑客机器人的存在是为了抓取网站来查看网站基础设施。他们测试常见的/admin.htm样式网址的网域,寻找使用默认CMS的网站,并且没有改变用户名或密码等内容。他们搜寻易受攻击的网站,即低悬的水果,他们可以访问和利用。他们可能会收集管理员或用户信息,或者只是将URL报告给黑客机器人的所有者。他们可能被编程为简单地取下一个网站并用自己的内容替换它。

显然,这些机器人有很多错误。除了他们的目的之外,他们还有另一个副作用; 服务器应变。机器人可能会以精简轻巧的方式访问您的网站 – 搜索引擎机器人经常这样做 – 但即使他们这样做了,他们仍然在访问您的网站。他们仍然下载内容,从服务器发出请求,并且通常会耗尽资源。

在很多情况下,这甚至可能会导致网站无法访问。我曾经看到有报道称,百度一直只被百度打击并被打倒,尽管百度通常很聪明,可以避免这样做。然而,凭借对网络上的bot流量的强大压力,还有很多需要解决的问题。

阻止机器人

阻止漫游器尝试访问您的网站有两种方法。一个是通过robots.txt文件,另一个是通过.htaccess文件。

正如你可能从这篇文章的标题中猜到的那样,我将关注第二篇。首先,让我们来谈谈robots.txt。什么是robots.txt文件?

robots.txt文件是放置在服务器的根目录中的文本文件。其目的是为想要访问您的站点的机器人提供指导。您可以使用它阻止机器人访问,无论是特定的机器人还是所有的机器人。那么为什么不使用它?

robots.txt的问题在于它正在给机器人提供指导。如果机器人选择不尊重它 – 我的意思是,如果机器人的创建者编程它忽略robots.txt – 你什么也做不了。这就好像你的前门打开了,但有一个标有“强盗远离”的标志。如果强盗选择忽略这个标志,那么没有任何东西阻止他们走过大门。

.htaccess文件是Apache Web服务器软件使用的配置文件。这更像是前门的一名保安人员,积极阻止潜在的强盗。除了在这种情况下,保安人员有能力看到试图进入的人是否来自RobberHome,身穿衬衫,上面写着“我是强盗”,或者以其他方式表明自己。

这意味着.htaccess文件可以主动阻止大多数机器人,但不是所有的机器人。特别是,来自普通用户的僵尸网络僵尸计算机 – 从属计算机 – 通常在默认情况下不会被阻止。这是因为那些使用普通用户软件的普通用户计算机。如果你阻止他们,你阻止了人类。但对于大多数其他机器人,.htaccess文件是理想的。

请注意,只有在您的Web服务器运行Apache时才能使用.htaccess文件。如果您使用的是Nginx,Lighttpd或其他小众服务器体系结构,您必须找到该软件阻止漫游器的方法。

识别阻止的机器人

首先,说一句警告。在通过.htaccess文件阻止漫游器时要非常小心。一个错字,你最终可能会阻止整个互联网。显然你不想那样。

您想要做的第一件事是备份当前的.htaccess文件。如果发生错误阻止了您不想阻止的流量,则可以恢复旧文件以恢复更改,直到找出问题所在。

你想要做的第二件事是弄清楚如何找到你自己的访问日志。使用Apache时,您需要使用Linux / Unix命令来访问日志文件。无论何时您使用.htaccess文件添加块,请确保先使用几种不同的方法测试对您网站的访问权限。如果您以某种不应该被阻止的方式进行阻止,那么出现了问题,您可以及时的修改。

越视界是一家专业的北京网站优化公司,从成立至今已为超过500家公司,提供了优质服务,为企业提供优质的网络营销服务是我们立足市场的根本,联系电话:4000-565-626,好了,北京SEO优化如何使用.htaccess拦截搜索引擎蜘蛛、网站机器人就分享到这里。感谢阅读,欢迎分享!

— THE END —

标签:SEO优化

相关推荐:
SEO优化网站排名突破快速上涨_越视界SEO优化
百度搜索引擎和SEO优化用户体验
SEO优化_网站如何获得关键词排名?
深入人心的软文营销文案怎样去写_越视界软文营销如何策划的?
网络舆情公关怎么做_越视界舆情监测服务
cache
Processed in 0.005951 Second.