免费人成网站视频在线观看国内,久视频精品线在线观看,人妻激情偷乱频一区二区三区,国产 字幕 制服 中文 在线

爬蟲(chóng)蜘蛛User Agent

爬蟲(chóng)蜘蛛UA,常見(jiàn)的搜索引擎蜘蛛和網(wǎng)絡(luò )爬蟲(chóng)的User Agent標識大全




搜索引擎蜘蛛和網(wǎng)絡(luò )爬蟲(chóng)的UA標識大全

User Agent:是代表訪(fǎng)客身份的字符串標識符,簡(jiǎn)稱(chēng):UA,中文譯名:用戶(hù)代理。

網(wǎng)絡(luò )爬蟲(chóng)蜘蛛User Agent大全,收集整理了當今互聯(lián)網(wǎng)上常見(jiàn)的搜索引擎蜘蛛UA標識和非惡意的或有惡意意圖的網(wǎng)絡(luò )爬蟲(chóng)UA標識。一般情況下,參考這些User Agent標識符,可以判斷訪(fǎng)客身份,然后可以根據實(shí)際需求屏蔽無(wú)用的、甚至是有害的爬蟲(chóng)蜘蛛。這樣能保證SEO優(yōu)化不受影響的同時(shí),還能確保服務(wù)器的性能、安全等不受干擾。

通過(guò)UserAgent就能準確判斷訪(fǎng)客身份嗎?

不一定準確,User Agent是可以被偽造的。但是,對于正常的網(wǎng)絡(luò )爬蟲(chóng)、蜘蛛,它們一般都會(huì )使用自己特有的UA標識,不會(huì )刻意去偽造另一個(gè),搜索引擎蜘蛛和網(wǎng)絡(luò )爬蟲(chóng)的User Agent標識信息一般只可能被別有用心的黑客、攻擊者用來(lái)做偽裝,所以User-Agent不應作為唯一的判定依據。

如何屏蔽網(wǎng)絡(luò )爬蟲(chóng)、網(wǎng)絡(luò )蜘蛛?

我們一般都應該將那些有“流氓”行為的采集爬蟲(chóng)或蜘蛛拒之門(mén)外,屏蔽攔截網(wǎng)絡(luò )爬蟲(chóng)的方法很多,建議使用以下兩種方法:

1、使用使用robots.txt文件阻止不友好的網(wǎng)絡(luò )爬蟲(chóng)

robots.txt是爬蟲(chóng)協(xié)議文件,可以“拒絕”或“允許”網(wǎng)絡(luò )爬蟲(chóng)進(jìn)來(lái),但前提是爬蟲(chóng)必須遵守robots協(xié)議。事實(shí)上不是所有爬蟲(chóng)的遵守協(xié)議的,表面上都聲稱(chēng)自己的爬蟲(chóng)遵守協(xié)議,實(shí)則有可能并非如此。所以這個(gè)方法,只適合應對遵守約定的“真君子”。

2、根據User Agent來(lái)阻止不友好的網(wǎng)絡(luò )爬蟲(chóng)

可以在Linux或者Apache下配置攔截規則,例如阻攔User Agent為空的以及DotBot、Spawning-AI:

#根據user-Agent反爬蟲(chóng)
if ($http_user_agent ~* "^$|Spawning-AI|DotBot") {
    rewrite "^/(.*)$" /error/403.php last;
}
                    

也可以使用動(dòng)態(tài)語(yǔ)言腳本實(shí)現反爬蟲(chóng)的功能,例如使用PHP:

$UA = $_SERVER['HTTP_USER_AGENT'];
if(preg_match('[MJ12bot|Scrapy]i', $UA)){
    die('403');
}
                    
常見(jiàn)爬蟲(chóng)蜘蛛User Agent
UA關(guān)鍵詞 User Agent 相關(guān)說(shuō)明
Googlebot Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/122.0.6261.94MobileSafari/537.36(compatible;Googlebot/2.1) Googlebot,搜索引擎蜘蛛的UA標識,屬于全球知名的Google公司。
Baiduspider Mozilla/5.0(compatible;Baiduspider/2.0) 百度搜索引擎蜘蛛在爬行頁(yè)面抓取內容的時(shí)候,會(huì )使用這個(gè)代理標識。
bingbot Mozilla/5.0AppleWebKit/537.36(KHTML,likeGecko;compatible;bingbot/2.0)Chrome/116.0.1938.76Safari/537.36 這是Bing搜素引擎的User Agent標識,必應搜索在國內的知名度逐年迅速增加,現在用戶(hù)量也僅次于百度。
Sogouwebspider Sogouwebspider/4.0 這是搜狗搜索引擎蜘蛛使用的代理標識。在爬行的時(shí)候,似乎?,FBug,經(jīng)常抽風(fēng)。
YisouSpider Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.81YisouSpider/5.0Safari/537.36 神馬搜索引擎蜘蛛,這個(gè)搜索引擎在國內也有10%左右的市場(chǎng)占有率。一般情況不建議屏蔽。
PetalBot Mozilla/5.0(Linux;Android7.0;)AppleWebKit/537.36(KHTML,likeGecko)MobileSafari/537.36(compatible;PetalBot) 搜索引擎蜘蛛,由華為公司自主研發(fā)?,F在只為海外用戶(hù)提供服務(wù),雖然暫時(shí)未在國內上線(xiàn),但是會(huì )抓取國內的網(wǎng)站內容,遲早也會(huì )在國內開(kāi)放給網(wǎng)民使用。
360Spider Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/…… (KHTML, like Gecko) Chrome/…… Safari/……; 360Spider 360搜索引擎蜘蛛的簽名UA信息。
Amazonbot Mozilla/5.0(Macintosh;IntelMacOSX10_10_1)AppleWebKit/600.2.5(KHTML,likeGecko)Version/8.0.2Safari/600.2.5(Amazonbot/0.1) 亞馬遜公司的網(wǎng)絡(luò )爬蟲(chóng),如果你網(wǎng)站只做國內推廣不做外貿貿易,這個(gè)爬蟲(chóng)對你網(wǎng)站來(lái)說(shuō)也沒(méi)什么用處。
claudebot claudebot 尚且不能確定是誰(shuí)的網(wǎng)絡(luò )爬蟲(chóng),但通過(guò)其lookup反查,發(fā)現綁定的是亞馬遜公司的域名!它不遵循robots.txt協(xié)議,掃描頻率很高,多半是不懷好意的。
Yandex Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0) 搜索引擎的蜘蛛。Yandex是俄羅斯的知名搜索引擎。
DotBot Mozilla/5.0(compatible;DotBot/1.2;help@moz.com) 是一個(gè)網(wǎng)絡(luò )爬蟲(chóng),人稱(chēng)“垃圾爬蟲(chóng)”。因為它不會(huì )為你帶來(lái)流量,更不會(huì )為你創(chuàng )造價(jià)值,它只會(huì )瘋狂抓取網(wǎng)站數據用作分析外鏈等用途,耗費你的服務(wù)器資源。
MJ12bot Mozilla/5.0(compatible;MJ12bot/v1.4.8) 這是來(lái)自英國的Majestic網(wǎng)絡(luò )營(yíng)銷(xiāo)公司的爬蟲(chóng)所使用的用戶(hù)代理標識,它主要任務(wù)是收集互聯(lián)網(wǎng)數據服務(wù)于它的客戶(hù)。而且這個(gè)爬蟲(chóng)不怎么更新,隔三岔五訪(fǎng)問(wèn)早就不存在的鏈接,抓取頻率也高,不但不會(huì )給你網(wǎng)站帶來(lái)好處,還會(huì )影響你站點(diǎn)性能。
BLEXBot Mozilla/5.0(compatible;BLEXBot/1.0) webmeup的網(wǎng)絡(luò )爬蟲(chóng),還是比較守規矩,不會(huì )狂抓數據,所以也只會(huì )偶爾發(fā)現它的身影。雖然它獲取數據,只為它自己產(chǎn)品服務(wù)的,沒(méi)發(fā)現對站長(cháng)有什么好處,但是也不見(jiàn)得會(huì )帶來(lái)什么負面影響。
ImagesiftBot Mozilla/5.0(compatible;ImagesiftBot) 網(wǎng)絡(luò )圖片爬蟲(chóng),是圖片反查引擎的蜘蛛。如果你不希望自己的圖片被其收錄,可以考慮屏蔽這個(gè)蜘蛛。
AhrefsBot Mozilla/5.0(compatible;AhrefsBot/7.0) 這是Ahrefs公司的網(wǎng)絡(luò )爬蟲(chóng)程序使用的用戶(hù)代理User Agent標識。該公司獲取網(wǎng)頁(yè)數據用于搜索引擎SEO優(yōu)化分析。如果你不使用該公司的服務(wù),屏蔽這個(gè)爬蟲(chóng)蜘蛛也無(wú)影響。
DataForSeoBot Mozilla/5.0(compatible; DataForSeoBot/1.0) 這是SEO優(yōu)化公司的爬蟲(chóng),如果它爬行你網(wǎng)站,只為獲取數據給它客戶(hù)做SEO分析,對你網(wǎng)站來(lái)說(shuō)沒(méi)有價(jià)值。
python python/1.0 …… python爬蟲(chóng),通常都是有不良企圖的用戶(hù)用來(lái)掃描、采集你網(wǎng)站數據的。
Scrapy Scrapy/1.0 …… Scrapy是爬蟲(chóng)框架應用程序,包含這類(lèi)關(guān)鍵詞的User Agent訪(fǎng)客,基本都是基本動(dòng)機不純。
msray-plus msray-plus/ …… 一款采集工具的默認UA包含msray-plus字符串。這是一款“小偷軟件”。
Go-http-client …… go-http-client/1.1 …… HTTP客戶(hù)端,一般用來(lái)做接口調試。如果不是你自己在做測試,說(shuō)明有人在給你“幫忙”。
WellKnownBot …… WellKnownBot …… 看它自我介紹,說(shuō)是公益、無(wú)害的,但它可能會(huì )高頻率地訪(fǎng)問(wèn).well-known目錄。小編覺(jué)得,它對我們站長(cháng)來(lái)說(shuō)是有害無(wú)利。
Spawning-AI …… Spawning-AI …… 還不清楚具體是做什么的,看名字,應該是人工智能公司的爬蟲(chóng)。