https://www.tmd9.com/plugin.php?id=dicky_spider_watchdog
9 o- k |9 x/ P n+ ]discuz_plugin_dicky_spider_watchdog_SC_GBK.xml (简体 GBK 编码)4 G2 K3 R! Z) U' B
discuz_plugin_dicky_spider_watchdog_SC_UTF8.xml (简体 UTF8SC 编码)
6 Q& z Y3 l! }7 B- cdiscuz_plugin_dicky_spider_watchdog_TC_UTF8.xml (繁体 UTF8TC 编码)6 P2 J9 s# y/ L. N+ c
discuz_plugin_dicky_spider_watchdog_TC_BIG5.xml (繁体 BIG5 编码)
3 s' p+ N5 Y$ E2 L0 m
0 [% D; U* b/ X& Y( U( T6 ^
; V/ G3 q' P1 g$ Z0 G% N本插件可以阻止指定的蜘蛛、爬虫程序抓取网站,降低服务器负载,并可以设置指定版块、指定帖子ID、指定文章栏目ID、指定文章ID禁止蜘蛛和爬虫程序访问。3 L3 u. m( B W1 v j- B; L0 B3 i
# @8 K/ b# B7 e( N
演示地址:http://dz.25941.cn
- X( Y I/ {/ P, A$ `. T7 H4 [# [( M/ \" H, ^
搜索引擎爬虫对网站的负面影响:
; G; v" z5 S' y% g8 s(1)、网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。
/ }" S" q; [; S! V例如,原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。% ~8 t/ S5 o) {3 z* ^
(2)、搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。$ F0 c; T; g' |6 k0 O* x, L y% O
(3)、设置了robots.txt文件不代表可以高枕无忧。
3 s) f3 Y6 D& ]. T2 I( h, T% J肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。不错正规的搜索引擎会遵守规则,且不会及时生效。实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。
" R) s1 ?: P4 _! A$ v2 h8 `(4)、还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具,等等,只有你想不到的工具,没有它做不到的...,对于这种蜘蛛,需要从网站访问日志中提取UA关键字,放到插件设置中。& r0 y5 W8 \) \
! E: r' a& D1 y7 D! w0 T/ `常见蜘蛛:
9 [* i$ I: G5 i8 A4 j* T% L+ qBaiduspider
' f( M- @ _! m# FYodaoBot
- u5 e' R& Y x2 k$ o6 UYoudaoBot
& x* M, w5 v; Z( P1 IGooglebot
k w" {/ r' l4 e( DGooglebot-Image
1 I) W8 T$ ^( H6 r( e. lMediapartners-Google
* Y6 m4 ]* S8 ^5 ]7 z7 }5 cSogou-Test-Spider
( J/ B0 H* P1 l6 g% pTwiceler
$ X+ L; Y. G5 G& ?) a* s: L1 z" g* sYahoo! Slurp
8 P: \4 x- W! AYahoo! Slurp China& l8 j: R' P2 Z( B$ n9 A
Yahoo!-AdCrawler
2 `- c" a7 c5 Y& \Yahoo ContentMatch Crawler
' t! e/ P& ], y6 @Sosospider9 B: U5 ~+ V" u9 `( z8 n/ s1 B
CollapsarWEB qihoobot
: G3 g7 K2 R3 b( A8 G2 MNaverBot
2 i& F5 `9 [( X) u4 Wsogou spider
$ Q0 n) ? x" }0 |) ysogou in spider5 ^7 l( x9 J4 X% X# x7 B
Sogou web spider
6 W% i7 ^" _0 ZSogou News Spider5 E) g' [8 n) C: \$ d- i6 S
Sogou Orion spider. H+ A, g" f' e j2 a2 `% ^& Y0 a' K
Sogou head spider
$ F" Z; {- P* {, H$ DSurveyBot: w. o% h1 h( j2 ]! ]
Yanga WorldSearch Bot v
5 y, k# F% ~4 i/ Q# ebaiduspider-mobile-gate. C/ L4 p9 I3 I- L# p. [
discobot# z9 _2 B. ^6 c, B8 H/ f9 ^2 w9 k H
ia_archiver" V# c3 ^! B0 _1 \2 Y
msnbot
, C; z3 g( p/ p- I. l+ w6 r2 qmsnbot-media
" n- i/ K4 H. c% u5 R360Spider4 y: O% ^$ s8 D
bingbot
) P3 _1 W4 ]# D. M; ]( H4 }YisouSpider
) D- j. E# H7 A; Y; s# x1 ?EasouSpider. Z" M3 |5 L, r" c8 w
JikeSpider
4 Y1 a, S( X M4 s3 O6 bEtaoSpider+ Y, O8 K: {: ?: d# a8 l
YandexBot- _! o' C3 {0 e
AhrefsBot5 u" r& |( B. W0 Z. k) }
ezooms.bot
8 |+ ?; N. T. Y" C& s/ T. J( c! L1 \
% a% _' C, a: |: R- C4 u |