作为站长,做做网站、更新网站、管理网站、维护网站很重要。如果是非SEO网站优化专员,对搜索引擎蜘蛛一无所知,这个站长有点假。所以,小千解说识别真假搜索引擎蜘蛛,答案解析都在小千个人博客。
作为网站站长,识别搜索引擎蜘蛛,判断真假搜索引擎蜘蛛,这个真的是非常重要的,一个合格的网站站长,必须要自己学会看网站日志,和识别搜索引擎蜘蛛,也是作为站长的必备教程。
今天,小千就给大家详细介绍下,怎么识别搜索引擎蜘蛛?怎么判断搜索引擎蜘蛛?然后禁止那些国外的蜘蛛抓,禁止国外蜘蛛抓取,可以保障网站服务器的稳定问题。下面一起来看看吧。
想要识别、认识、那些搜索引擎蜘蛛,就得知道他们的名称,当然,这也是小千从各大站长平台收集的,大家在站长平台也能看到,这些蜘蛛名称。
搜索引擎蜘蛛名称大全
1、百度蜘蛛:Baiduspider
2、谷歌蜘蛛:Googlebot
3、360蜘蛛:360Spider
4、SOSO蜘蛛:Sosospider
5、雅虎蜘蛛:Yahoo! Slurp China 或者 Yahoo!
6、有道蜘蛛:YoudaoBot、YodaoBot
7、搜狗蜘蛛:Sogou News Spider
8、MSN蜘蛛:msnbot、msnbot-media(这个是必应国外蜘蛛)
9、必应蜘蛛:bingbot(这个是必应国内蜘蛛)
10、神马蜘蛛:YisouSpider(又名一搜蜘蛛)
11、Alexa蜘蛛:ia_archiver
12、宜sou蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘网蜘蛛:EtaoSpider
15、头条蜘蛛:Bytespider
16、国外蜘蛛:SemrushBot、BLEXBot、DotBot、MJ12bot、YandexBot、AhrefsBot和ezooms.bot等等(国外还有很多不常见的蜘蛛,总之,禁止抓取就对了)
当然,也有不少的程序员,伪造来源、伪造系统,伪造UA、伪造来源地址等,就是不能伪造IP访问,但是,我可以明确的告诉你,有来源的蜘蛛地址,都是代码伪造的,这个很容易看出来,继续往下看你就懂了。
网站日志在线查看工具
好了,既然认识了蜘蛛名称,那就再看看这些蜘蛛的访问痕迹,一般都会留下网站日志,如下,看看这些蜘蛛的访问足迹吧,或者用网站日志查看工具查看。网站日志在线分析工具,可以帮各位站长分析网站蜘蛛抓取情况,用网站日志看蜘蛛访问情况,更加的一目了然。
百度蜘蛛访问痕迹
116.179.32.39 - - [07/Dec/2022:13:06:18 +0800] "GET / HTTP/1.1" 200 6844 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
伪百度蜘蛛访问痕迹
114.41.4.145 - - [07/Dec/2022:14:18:44 +0800] "GET / HTTP/1.1" 200 0 "http://nidecms.com/" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
识别伪蜘蛛的方法:看标红的位置,这种带来源的,就是百度伪蜘蛛,当然,除了伪百度以外,其它的搜索引擎也会有。
说到伪蜘蛛,简单的来讲,就是那些搞泛程序、泛目录,想为网站引流、而伪造的蜘蛛。这种伪蜘蛛,一般都是带来源的,像上面的这个,200是http状态,后面有个网站来源。一般真蜘蛛都是 - 表示来源。像这个有来源的,明显就是伪造的假蜘蛛,当然,伪造的不止百度,其它的蜘蛛也有。
当然,除了反常的360蜘蛛以外,它会以全地址的形式,表示蜘蛛访问的地址。而伪造的蜘蛛,目的很单纯,就是想站长点击打开回访。至于效果怎么样,我想,大多数站长都懂,像这种伪蜘蛛,一般都是ip地址不变的,直接打开防火墙,将IP地址加入黑名单,就不会再有这种假蜘蛛了。
搜狗蜘蛛访问痕迹
61.135.159.130 - - [07/Dec/2022:10:44:30 +0800] "GET / HTTP/1.1" 200 6844 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
必应蜘蛛访问痕迹
40.77.167.59 - - [07/Dec/2022:10:16:14 +0800] "GET / HTTP/1.1" 200 6925 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
神马蜘蛛访问痕迹
101.67.29.240 - - [07/Dec/2022:09:00:21 +0800] "GET / HTTP/1.1" 200 6025 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1"
谷歌蜘蛛访问痕迹
66.249.73.120 - - [07/Dec/2022:06:04:31 +0800] "GET /robots.txt HTTP/1.1" 200 919 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
360蜘蛛访问痕迹
42.236.10.70 - - [07/Dec/2022:09:10:08 +0800] "GET /www/sitemap.xml HTTP/1.1" 200 3121 "http://nidecms.com/www/sitemap.xml" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider"
头条蜘蛛访问痕迹
110.249.201.63 - - [07/Dec/2022:09:09:24 +0800] "GET / HTTP/1.1" 200 3985 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)"
不常见的国外蜘蛛访问痕迹
94.23.203.202 - - [07/Dec/2022:13:20:47 +0800] "GET /robots.txt HTTP/1.1" 200 928 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"
216.244.66.246 - - [07/Dec/2022:15:15:08 +0800] "GET /robots.txt HTTP/1.1" 200 928 "-" "Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)"
185.191.171.37 - - [07/Dec/2022:05:57:37 +0800] "GET /robots.txt HTTP/1.1" 200 0 "-" "Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"
103.131.71.191 - - [07/Dec/2022:14:48:45 +0800] "GET /robots.txt HTTP/1.1" 200 0 "-" "Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)"
157.90.182.26 - - [07/Dec/2022:15:21:40 +0800] "GET /robots.txt HTTP/1.1" 200 0 "-" "Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)"
77.88.5.171 - - [07/Dec/2022:06:00:32 +0800] "GET /robots.txt HTTP/1.1" 200 0 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
记住MSIE不是蜘蛛
183.194.157.9 - - [01/Dec/2022:17:44:34 +0800] "GET / HTTP/1.1" 200 23663 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)"
像MSIE这个访问痕迹,属于用户访问网站痕迹,像 MSIE 8.0; Windows NT 6.1; Trident/4.0 是电脑配置信息、浏览器信息等。
不想国外蜘蛛访问
http://nidecms.com/robots.txt
国外蜘蛛抓取网站,不想国外蜘蛛访问,那可以参考小千网站写的robots.txt禁止就行。
网站的robots.txt文件很重要,所有的蜘蛛,一般都是遵循robots.txt文件的,只要在robots.txt文件禁止,就不会再有访问了。
总结:作为站长,一定要会识别搜索引擎蜘蛛,不做外贸的网站,可以禁止国外的蜘蛛抓取网站,这样可以减轻服务器负担,同时更是为了保障服务器稳定。当然,如果有看不懂的,可以私聊小千哦。
本文结束
评论专区
发表评论
评论列表(无评论)