作为站在,众所周知,蜘蛛是阔以识别CSS、JS代码的,像前端网页中的 style="display:none;" 犹如掩耳盗铃,无论你把它整得多么花俏,都是避免不了被搜索引擎抓取。那么,问题来了,怎么样才能屏蔽蜘蛛抓取,对此,小编给大家谋划一下,废话少说就直接上代码。
屏蔽蜘蛛代码
<?php
/*获取User Agent信息*/
$userAgent = $_SERVER['HTTP_USER_AGENT'];
$searchEngines = array('python','@','curl','compatible','bot','spider','Baiduspider','bingbot','Sogou','Bytespider','YisouSpider','360Spider','Googlebot');
foreach ($searchEngines as $searchEngine) {
if (stripos($userAgent, $searchEngine) !== false) {
echo '屏蔽蜘蛛代码';
exit();
}
}
?>还是觉得PHP好用
过滤样式代码
<?php
/*过滤CSS、JS样式*/
$muban = preg_replace('/<style\b[^>]*>.*?<\/style>/si', '', $muban);
$muban = preg_replace('/<script\b[^>]*>.*?<\/script>/si', '', $muban);
$muban = preg_replace('/<link.*?>|<script.*?>|<style.*?>.*?<\/style>/si', '', $muban);
/*过滤CSS、JS样式*/
?>PHP规则是万能的
整合最终代码
<?php
error_reporting(0);
/*开启GZIP压缩*/
ob_start('ob_gzhandler');
?>
<!DOCTYPE HTML>
<html>
<!--STATUS OK-->
<head>
<title>全民博客</title>
</head>
<script type="text/javascript">
11111111
</script>
<link type="text/css" rel="stylesheet" href="/ueditor/asking/css/niku1.css"/>
<script type="text/javascript" src="/ueditor/jquery.min.js"></script>
<script type="text/javascript" src="/ueditor/asking/ajs/layui.js"></script>
<script type="text/javascript" src="/ueditor/asking/ajs/fancybox.js"></script>
<!--{这个注释会被过滤掉}-->
<style type="text/css">
1111
</style>
<script type="text/javascript">
2222
</script>
<!--{这个注释会被过滤掉}-->
<script type="text/javascript">
3333
</script>
<body>
</body>
</html>
<?php
/*PHP压缩输出网页代码*/
$bodyhtml = ob_get_contents();
ob_end_clean();// 得到当前缓冲区的内容并删除当前输出缓冲区
ob_end_flush();/*结束GZIP压缩*/
exit(HTMLBODY($bodyhtml));
function HTMLBODY($muban) {
/*获取User Agent信息*/
$userAgent = $_SERVER['HTTP_USER_AGENT'];
$searchEngines = array('python','@','curl','compatible','bot','spider','Baiduspider','bingbot','Sogou','Bytespider','YisouSpider','360Spider','Googlebot');
foreach ($searchEngines as $searchEngine) {
if (stripos($userAgent, $searchEngine) !== false) {
/*过滤CSS、JS样式*/
$muban = preg_replace('/<style\b[^>]*>.*?<\/style>/si', '', $muban);
$muban = preg_replace('/<script\b[^>]*>.*?<\/script>/si', '', $muban);
$muban = preg_replace('/<link.*?>|<script.*?>|<style.*?>.*?<\/style>/si', '', $muban);
/*过滤CSS、JS样式*/
}
}
$muban = preg_replace('#<!--{(.*?)}-->#','',$muban);
//<!--{过滤这种注释标签}-->
$muban = preg_replace('/\s+/', ' ',$muban);
$muban = trim($muban);
echo $muban;
}
/*PHP压缩输出网页代码*/
?>做网站就在于折腾
有点特别注意
小编说过,这年头,做网站,整新站,要整PHP的了,像那种HTML后缀的,真的是活该被某度训化,抓取你的网站做AI训练。特别的垄断,特别的内卷,拿别人的网站,来训练自己的AI模型,现在要再做网站,你信我,网站高手都整PHP后缀的,不会技术,啥都不懂得,还玩HTML的要注定被抛弃了。
本文结束
评论专区




上一篇
发表评论
评论列表(无评论)