Plugin 蜘蛛看门狗 v2.0(dicky_spider_watchdog)
https://www.tmd9.com/plugin.php?id=dicky_spider_watchdogdiscuz_plugin_dicky_spider_watchdog_SC_GBK.xml (简体 GBK 编码)
discuz_plugin_dicky_spider_watchdog_SC_UTF8.xml (简体 UTF8SC 编码)
discuz_plugin_dicky_spider_watchdog_TC_UTF8.xml (繁体 UTF8TC 编码)
discuz_plugin_dicky_spider_watchdog_TC_BIG5.xml (繁体 BIG5 编码)
本插件可以阻止指定的蜘蛛、爬虫程序抓取网站,降低服务器负载,并可以设置指定版块、指定帖子ID、指定文章栏目ID、指定文章ID禁止蜘蛛和爬虫程序访问。
演示地址:http://dz.25941.cn
搜索引擎爬虫对网站的负面影响:
(1)、网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。
例如,原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。
(2)、搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。
(3)、设置了robots.txt文件不代表可以高枕无忧。
肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。不错正规的搜索引擎会遵守规则,且不会及时生效。实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。
(4)、还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具,等等,只有你想不到的工具,没有它做不到的...,对于这种蜘蛛,需要从网站访问日志中提取UA关键字,放到插件设置中。
常见蜘蛛:
Baiduspider
YodaoBot
YoudaoBot
Googlebot
Googlebot-Image
Mediapartners-Google
Sogou-Test-Spider
Twiceler
Yahoo! Slurp
Yahoo! Slurp China
Yahoo!-AdCrawler
Yahoo ContentMatch Crawler
Sosospider
CollapsarWEB qihoobot
NaverBot
sogou spider
sogou in spider
Sogou web spider
Sogou News Spider
Sogou Orion spider
Sogou head spider
SurveyBot
Yanga WorldSearch Bot v
baiduspider-mobile-gate
discobot
ia_archiver
msnbot
msnbot-media
360Spider
bingbot
YisouSpider
EasouSpider
JikeSpider
EtaoSpider
YandexBot
AhrefsBot
ezooms.bot
tshuz_tools nciaer_autoforum pin_baidu_hot llx_wxfollow dzl8_webmaster zxsq_mdavatar
页:
[1]