免费人成网站视频在线观看国内,久视频精品线在线观看,人妻激情偷乱频一区二区三区,国产字幕制服中文在线

  ဆ

爬蟲(chóng)蜘蛛User Agent

爬蟲(chóng)蜘蛛UA，常見(jiàn)的搜索引擎蜘蛛和網(wǎng)絡(luò )爬蟲(chóng)的User Agent標識大全

快捷查找

輸入要查找的關(guān)鍵詞

搜索引擎蜘蛛和網(wǎng)絡(luò )爬蟲(chóng)的UA標識大全

User Agent：是代表訪(fǎng)客身份的字符串標識符，簡(jiǎn)稱(chēng)：UA，中文譯名：用戶(hù)代理。

網(wǎng)絡(luò )爬蟲(chóng)蜘蛛User Agent大全，收集整理了當今互聯(lián)網(wǎng)上常見(jiàn)的搜索引擎蜘蛛UA標識和非惡意的或有惡意意圖的網(wǎng)絡(luò )爬蟲(chóng)UA標識。一般情況下，參考這些User Agent標識符，可以判斷訪(fǎng)客身份，然后可以根據實(shí)際需求屏蔽無(wú)用的、甚至是有害的爬蟲(chóng)蜘蛛。這樣能保證SEO優(yōu)化不受影響的同時(shí)，還能確保服務(wù)器的性能、安全等不受干擾。

通過(guò)UserAgent就能準確判斷訪(fǎng)客身份嗎？

不一定準確，User Agent是可以被偽造的。但是，對于正常的網(wǎng)絡(luò )爬蟲(chóng)、蜘蛛，它們一般都會(huì )使用自己特有的UA標識，不會(huì )刻意去偽造另一個(gè)，搜索引擎蜘蛛和網(wǎng)絡(luò )爬蟲(chóng)的User Agent標識信息一般只可能被別有用心的黑客、攻擊者用來(lái)做偽裝，所以User-Agent不應作為唯一的判定依據。

如何屏蔽網(wǎng)絡(luò )爬蟲(chóng)、網(wǎng)絡(luò )蜘蛛？

我們一般都應該將那些有“流氓”行為的采集爬蟲(chóng)或蜘蛛拒之門(mén)外，屏蔽攔截網(wǎng)絡(luò )爬蟲(chóng)的方法很多，建議使用以下兩種方法：

1、使用使用robots.txt文件阻止不友好的網(wǎng)絡(luò )爬蟲(chóng)

robots.txt是爬蟲(chóng)協(xié)議文件，可以“拒絕”或“允許”網(wǎng)絡(luò )爬蟲(chóng)進(jìn)來(lái)，但前提是爬蟲(chóng)必須遵守robots協(xié)議。事實(shí)上不是所有爬蟲(chóng)的遵守協(xié)議的，表面上都聲稱(chēng)自己的爬蟲(chóng)遵守協(xié)議，實(shí)則有可能并非如此。所以這個(gè)方法，只適合應對遵守約定的“真君子”。

2、根據User Agent來(lái)阻止不友好的網(wǎng)絡(luò )爬蟲(chóng)

可以在Linux或者Apache下配置攔截規則，例如阻攔User Agent為空的以及DotBot、Spawning-AI：

#根據user-Agent反爬蟲(chóng)
if ($http_user_agent ~* "^$|Spawning-AI|DotBot") {
    rewrite "^/(.*)$" /error/403.php last;
}

也可以使用動(dòng)態(tài)語(yǔ)言腳本實(shí)現反爬蟲(chóng)的功能，例如使用PHP：

$UA = $_SERVER['HTTP_USER_AGENT'];
if(preg_match('[MJ12bot|Scrapy]i', $UA)){
    die('403');
}

常見(jiàn)爬蟲(chóng)蜘蛛User Agent
UA關(guān)鍵詞	User Agent	相關(guān)說(shuō)明
Googlebot	Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/122.0.6261.94MobileSafari/537.36(compatible;Googlebot/2.1)	Googlebot，搜索引擎蜘蛛的UA標識，屬于全球知名的Google公司。
Baiduspider	Mozilla/5.0(compatible;Baiduspider/2.0)	百度搜索引擎蜘蛛在爬行頁(yè)面抓取內容的時(shí)候，會(huì )使用這個(gè)代理標識。
bingbot	Mozilla/5.0AppleWebKit/537.36(KHTML,likeGecko;compatible;bingbot/2.0)Chrome/116.0.1938.76Safari/537.36	這是Bing搜素引擎的User Agent標識，必應搜索在國內的知名度逐年迅速增加，現在用戶(hù)量也僅次于百度。
Sogouwebspider	Sogouwebspider/4.0	這是搜狗搜索引擎蜘蛛使用的代理標識。在爬行的時(shí)候，似乎?，FBug，經(jīng)常抽風(fēng)。
YisouSpider	Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.81YisouSpider/5.0Safari/537.36	神馬搜索引擎蜘蛛，這個(gè)搜索引擎在國內也有10%左右的市場(chǎng)占有率。一般情況不建議屏蔽。
PetalBot	Mozilla/5.0(Linux;Android7.0;)AppleWebKit/537.36(KHTML,likeGecko)MobileSafari/537.36(compatible;PetalBot)	搜索引擎蜘蛛，由華為公司自主研發(fā)?，F在只為海外用戶(hù)提供服務(wù)，雖然暫時(shí)未在國內上線(xiàn)，但是會(huì )抓取國內的網(wǎng)站內容，遲早也會(huì )在國內開(kāi)放給網(wǎng)民使用。
360Spider	Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/…… (KHTML, like Gecko) Chrome/…… Safari/……; 360Spider	360搜索引擎蜘蛛的簽名UA信息。
Amazonbot	Mozilla/5.0(Macintosh;IntelMacOSX10_10_1)AppleWebKit/600.2.5(KHTML,likeGecko)Version/8.0.2Safari/600.2.5(Amazonbot/0.1)	亞馬遜公司的網(wǎng)絡(luò )爬蟲(chóng)，如果你網(wǎng)站只做國內推廣不做外貿貿易，這個(gè)爬蟲(chóng)對你網(wǎng)站來(lái)說(shuō)也沒(méi)什么用處。
claudebot	claudebot	尚且不能確定是誰(shuí)的網(wǎng)絡(luò )爬蟲(chóng)，但通過(guò)其lookup反查，發(fā)現綁定的是亞馬遜公司的域名！它不遵循robots.txt協(xié)議，掃描頻率很高，多半是不懷好意的。
Yandex	Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0)	搜索引擎的蜘蛛。Yandex是俄羅斯的知名搜索引擎。
DotBot	Mozilla/5.0(compatible;DotBot/1.2;help@moz.com)	是一個(gè)網(wǎng)絡(luò )爬蟲(chóng)，人稱(chēng)“垃圾爬蟲(chóng)”。因為它不會(huì )為你帶來(lái)流量，更不會(huì )為你創(chuàng )造價(jià)值，它只會(huì )瘋狂抓取網(wǎng)站數據用作分析外鏈等用途，耗費你的服務(wù)器資源。
MJ12bot	Mozilla/5.0(compatible;MJ12bot/v1.4.8)	這是來(lái)自英國的Majestic網(wǎng)絡(luò )營(yíng)銷(xiāo)公司的爬蟲(chóng)所使用的用戶(hù)代理標識，它主要任務(wù)是收集互聯(lián)網(wǎng)數據服務(wù)于它的客戶(hù)。而且這個(gè)爬蟲(chóng)不怎么更新，隔三岔五訪(fǎng)問(wèn)早就不存在的鏈接，抓取頻率也高，不但不會(huì )給你網(wǎng)站帶來(lái)好處，還會(huì )影響你站點(diǎn)性能。
BLEXBot	Mozilla/5.0(compatible;BLEXBot/1.0)	webmeup的網(wǎng)絡(luò )爬蟲(chóng)，還是比較守規矩，不會(huì )狂抓數據，所以也只會(huì )偶爾發(fā)現它的身影。雖然它獲取數據，只為它自己產(chǎn)品服務(wù)的，沒(méi)發(fā)現對站長(cháng)有什么好處，但是也不見(jiàn)得會(huì )帶來(lái)什么負面影響。
ImagesiftBot	Mozilla/5.0(compatible;ImagesiftBot)	網(wǎng)絡(luò )圖片爬蟲(chóng)，是圖片反查引擎的蜘蛛。如果你不希望自己的圖片被其收錄，可以考慮屏蔽這個(gè)蜘蛛。
AhrefsBot	Mozilla/5.0(compatible;AhrefsBot/7.0)	這是Ahrefs公司的網(wǎng)絡(luò )爬蟲(chóng)程序使用的用戶(hù)代理User Agent標識。該公司獲取網(wǎng)頁(yè)數據用于搜索引擎SEO優(yōu)化分析。如果你不使用該公司的服務(wù)，屏蔽這個(gè)爬蟲(chóng)蜘蛛也無(wú)影響。
DataForSeoBot	Mozilla/5.0(compatible; DataForSeoBot/1.0)	這是SEO優(yōu)化公司的爬蟲(chóng)，如果它爬行你網(wǎng)站，只為獲取數據給它客戶(hù)做SEO分析，對你網(wǎng)站來(lái)說(shuō)沒(méi)有價(jià)值。
python	python/1.0 ……	python爬蟲(chóng)，通常都是有不良企圖的用戶(hù)用來(lái)掃描、采集你網(wǎng)站數據的。
Scrapy	Scrapy/1.0 ……	Scrapy是爬蟲(chóng)框架應用程序，包含這類(lèi)關(guān)鍵詞的User Agent訪(fǎng)客，基本都是基本動(dòng)機不純。
msray-plus	msray-plus/ ……	一款采集工具的默認UA包含msray-plus字符串。這是一款“小偷軟件”。
Go-http-client	…… go-http-client/1.1 ……	HTTP客戶(hù)端，一般用來(lái)做接口調試。如果不是你自己在做測試，說(shuō)明有人在給你“幫忙”。
WellKnownBot	…… WellKnownBot ……	看它自我介紹，說(shuō)是公益、無(wú)害的，但它可能會(huì )高頻率地訪(fǎng)問(wèn).well-known目錄。小編覺(jué)得，它對我們站長(cháng)來(lái)說(shuō)是有害無(wú)利。
Spawning-AI	…… Spawning-AI ……	還不清楚具體是做什么的，看名字，應該是人工智能公司的爬蟲(chóng)。