網(wǎng)站SEO基礎(chǔ)：如何阻止垃圾蜘蛛的抓取

來源：本站原創(chuàng)　瀏覽：2205次　時間：2018-12-27

　　作為一個網(wǎng)站的SEO負責(zé)人，你是否有關(guān)注過IIS日志的信息詳情?如果沒有,，我敢肯定你網(wǎng)站的不少帶寬都被所謂的蜘蛛占去了,，即使你的帶寬很猛，不在乎那么點流量,，但是從優(yōu)化到極致來說，這都是遠遠不達標的,。

　　蜘蛛分為真假蜘蛛,，一般大型搜索引擎的蜘蛛，如百度,、谷歌的蜘蛛,，假蜘蛛一般歸總為垃圾搜索引擎和惡意抓取程序。其中百度蜘蛛的真假分析,，你可以通過語法“ nslookup ip”,，查看來源是否是百度的子站點，如果不是,，那么就是偽裝的百度蜘蛛,。如果仔細分析，你會發(fā)現(xiàn)一些國內(nèi)或國外的蜘蛛,，例如 EasouSpider,、AhrefsBot等，這些蜘蛛都是沒有什么用的,，如果你面向的市場是國內(nèi)的,，百度 BaiduSpider，谷歌 Googlebot，360 360Spider,，soso Sosospider,，搜狗Sogou+web+spider，保留這幾個蜘蛛的抓取就足夠了,，其他的蜘蛛一律屏蔽掉就行了,，還有把你的靜態(tài)資源，如Image和JS,、CSS的路徑也屏蔽掉,，這些資源都是不需要蜘蛛抓取的，因為沒有展現(xiàn)的價值;

　　一般來說,，屏蔽蜘蛛的爬取有三種方法：

　　Robots 禁封

　　UA 禁封

　　IP 禁封

　　一,、Robots 禁封

　　Robots 協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是 “網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),，用來告訴搜索引擎,、爬蟲哪些頁面可以抓取，哪些頁面不能抓取,。

　　Robots 協(xié)議在網(wǎng)站中體現(xiàn)在根目錄下的 robots.txt 文件,，一般格式入下：

　　User-agent: YisouSpider

　　Disallow: /

　　User-agent: EasouSpider

　　Disallow: /

　　User-agent: *

　　Disallow: /admin/

　　正規(guī) Robot 在爬取網(wǎng)站前都會先讀取該文件，根據(jù) robots.txt 指示爬?。?

　　蜘蛛爬行記錄圖 1：ROBOTS TXT

　　但是由于 Robots 協(xié)議并不是一個規(guī)范,，而是約定俗成的，所以只能引導(dǎo)正規(guī)蜘蛛爬取,，并不能阻止垃圾蜘蛛,，因此要屏蔽流氓垃圾蜘蛛還需要其他更嚴格的措施來配合。

　　二,、UA 禁封

　　UA(User Agent)中文名為用戶代理，它是一個特殊字符串頭,，使得服務(wù)器能夠識別客戶使用的操作系統(tǒng)及版本,、CPU 類型、瀏覽器及版本,、瀏覽器渲染引擎,、瀏覽器語言、瀏覽器插件等,，大多數(shù)蜘蛛都有攜帶此信息,，如谷歌 Chrome 瀏覽器 Windows 版本 UA 是：

　　Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36

　　針對指定 UA 的訪問，返回預(yù)先設(shè)定好的異常頁面(如 403,，500)或跳轉(zhuǎn)到其他頁面的情況,，即為 UA 禁封。

　　Nginx 下，可以單獨創(chuàng)建一個配置文件,，如 deny-robots.conf,，并將文件添加到 nginx.conf 或網(wǎng)站配置中，然后重新加載 Nginx 即可,。

　　例如 deny-robots.conf 在 /etc/nginx/conf/ 文件夾下,，deny-robots.conf 內(nèi)容：

　　{

　　return 444;

　　}

　　然后在網(wǎng)站nginx配置中添加：

　　server {

　　......

　　include deny-robots.conf

　　......