正在读取数据,页面载入中,请稍后...

屏蔽蜘蛛抓取网站中的CSS样式和JS特效

作为站在,众所周知,蜘蛛是阔以识别CSS、JS代码的,像前端网页中的 style="display:none;" 犹如掩耳盗铃,无论你把它整得多么花俏,都是避免不了被搜索引擎抓取。那么,问题来了,怎么样才能屏蔽蜘蛛抓取,对此,小编给大家谋划一下,废话少说就直接上代码。

屏蔽蜘蛛代码

<?php
/*获取User Agent信息*/
$userAgent = $_SERVER['HTTP_USER_AGENT'];
$searchEngines = array('python','@','curl','compatible','bot','spider','Baiduspider','bingbot','Sogou','Bytespider','YisouSpider','360Spider','Googlebot');
foreach ($searchEngines as $searchEngine) {
    if (stripos($userAgent, $searchEngine) !== false) {
        echo '屏蔽蜘蛛代码';
	exit();
    }
}
?>

屏蔽蜘蛛抓取网站中的CSS样式和JS特效 - 全民博客

还是觉得PHP好用

过滤样式代码

<?php
/*过滤CSS、JS样式*/
$muban = preg_replace('/<style\b[^>]*>.*?<\/style>/si', '', $muban);
$muban = preg_replace('/<script\b[^>]*>.*?<\/script>/si', '', $muban);
$muban = preg_replace('/<link.*?>|<script.*?>|<style.*?>.*?<\/style>/si', '', $muban);
/*过滤CSS、JS样式*/
?>

PHP规则是万能的

整合最终代码

<?php
error_reporting(0);
/*开启GZIP压缩*/
ob_start('ob_gzhandler');
?>
<!DOCTYPE HTML>
<html>
<!--STATUS OK-->
<head>
<title>全民博客</title>
</head>
<script type="text/javascript">
11111111
</script>
<link type="text/css" rel="stylesheet" href="/ueditor/asking/css/niku1.css"/>
<script type="text/javascript" src="/ueditor/jquery.min.js"></script>
<script type="text/javascript" src="/ueditor/asking/ajs/layui.js"></script>
<script type="text/javascript" src="/ueditor/asking/ajs/fancybox.js"></script>
<!--{这个注释会被过滤掉}-->
<style type="text/css">
1111
</style>
<script type="text/javascript">
2222
</script>
<!--{这个注释会被过滤掉}-->
<script type="text/javascript">
3333
</script>
<body>
</body>
</html>
<?php
/*PHP压缩输出网页代码*/
$bodyhtml = ob_get_contents();
ob_end_clean();// 得到当前缓冲区的内容并删除当前输出缓冲区
ob_end_flush();/*结束GZIP压缩*/
exit(HTMLBODY($bodyhtml));
function HTMLBODY($muban) {
	/*获取User Agent信息*/
	$userAgent = $_SERVER['HTTP_USER_AGENT'];
	$searchEngines = array('python','@','curl','compatible','bot','spider','Baiduspider','bingbot','Sogou','Bytespider','YisouSpider','360Spider','Googlebot');
	foreach ($searchEngines as $searchEngine) {
		if (stripos($userAgent, $searchEngine) !== false) {
			/*过滤CSS、JS样式*/
			$muban = preg_replace('/<style\b[^>]*>.*?<\/style>/si', '', $muban);
			$muban = preg_replace('/<script\b[^>]*>.*?<\/script>/si', '', $muban);
			$muban = preg_replace('/<link.*?>|<script.*?>|<style.*?>.*?<\/style>/si', '', $muban);
			/*过滤CSS、JS样式*/
		}
	}
	$muban = preg_replace('#<!--{(.*?)}-->#','',$muban);
	//<!--{过滤这种注释标签}-->
	$muban = preg_replace('/\s+/', ' ',$muban);
	$muban = trim($muban);
	echo $muban;
}
/*PHP压缩输出网页代码*/
?>

做网站就在于折腾

有点特别注意

小编说过,这年头,做网站,整新站,要整PHP的了,像那种HTML后缀的,真的是活该被某度训化,抓取你的网站做AI训练。特别的垄断,特别的内卷,拿别人的网站,来训练自己的AI模型,现在要再做网站,你信我,网站高手都整PHP后缀的,不会技术,啥都不懂得,还玩HTML的要注定被抛弃了。

本文结束

评论专区

发表评论

评论列表(无评论)