作为站在,众所周知,蜘蛛是阔以识别CSS、JS代码的,像前端网页中的 style="display:none;" 犹如掩耳盗铃,无论你把它整得多么花俏,都是避免不了被搜索引擎抓取。那么,问题来了,怎么样才能屏蔽蜘蛛抓取,对此,小编给大家谋划一下,废话少说就直接上代码。
屏蔽蜘蛛代码
<?php /*获取User Agent信息*/ $userAgent = $_SERVER['HTTP_USER_AGENT']; $searchEngines = array('python','@','curl','compatible','bot','spider','Baiduspider','bingbot','Sogou','Bytespider','YisouSpider','360Spider','Googlebot'); foreach ($searchEngines as $searchEngine) { if (stripos($userAgent, $searchEngine) !== false) { echo '屏蔽蜘蛛代码'; exit(); } } ?>
还是觉得PHP好用
过滤样式代码
<?php /*过滤CSS、JS样式*/ $muban = preg_replace('/<style\b[^>]*>.*?<\/style>/si', '', $muban); $muban = preg_replace('/<script\b[^>]*>.*?<\/script>/si', '', $muban); $muban = preg_replace('/<link.*?>|<script.*?>|<style.*?>.*?<\/style>/si', '', $muban); /*过滤CSS、JS样式*/ ?>
PHP规则是万能的
整合最终代码
<?php error_reporting(0); /*开启GZIP压缩*/ ob_start('ob_gzhandler'); ?> <!DOCTYPE HTML> <html> <!--STATUS OK--> <head> <title>全民博客</title> </head> <script type="text/javascript"> 11111111 </script> <link type="text/css" rel="stylesheet" href="/ueditor/asking/css/niku1.css"/> <script type="text/javascript" src="/ueditor/jquery.min.js"></script> <script type="text/javascript" src="/ueditor/asking/ajs/layui.js"></script> <script type="text/javascript" src="/ueditor/asking/ajs/fancybox.js"></script> <!--{这个注释会被过滤掉}--> <style type="text/css"> 1111 </style> <script type="text/javascript"> 2222 </script> <!--{这个注释会被过滤掉}--> <script type="text/javascript"> 3333 </script> <body> </body> </html> <?php /*PHP压缩输出网页代码*/ $bodyhtml = ob_get_contents(); ob_end_clean();// 得到当前缓冲区的内容并删除当前输出缓冲区 ob_end_flush();/*结束GZIP压缩*/ exit(HTMLBODY($bodyhtml)); function HTMLBODY($muban) { /*获取User Agent信息*/ $userAgent = $_SERVER['HTTP_USER_AGENT']; $searchEngines = array('python','@','curl','compatible','bot','spider','Baiduspider','bingbot','Sogou','Bytespider','YisouSpider','360Spider','Googlebot'); foreach ($searchEngines as $searchEngine) { if (stripos($userAgent, $searchEngine) !== false) { /*过滤CSS、JS样式*/ $muban = preg_replace('/<style\b[^>]*>.*?<\/style>/si', '', $muban); $muban = preg_replace('/<script\b[^>]*>.*?<\/script>/si', '', $muban); $muban = preg_replace('/<link.*?>|<script.*?>|<style.*?>.*?<\/style>/si', '', $muban); /*过滤CSS、JS样式*/ } } $muban = preg_replace('#<!--{(.*?)}-->#','',$muban); //<!--{过滤这种注释标签}--> $muban = preg_replace('/\s+/', ' ',$muban); $muban = trim($muban); echo $muban; } /*PHP压缩输出网页代码*/ ?>
做网站就在于折腾
有点特别注意
小编说过,这年头,做网站,整新站,要整PHP的了,像那种HTML后缀的,真的是活该被某度训化,抓取你的网站做AI训练。特别的垄断,特别的内卷,拿别人的网站,来训练自己的AI模型,现在要再做网站,你信我,网站高手都整PHP后缀的,不会技术,啥都不懂得,还玩HTML的要注定被抛弃了。
本文结束
评论专区
发表评论
评论列表(无评论)