国产精品主播一区二区-国产一级不卡毛片-日本少妇中出-国产视频第二页-青草精品视频-亚洲熟妇丰满多毛xxxx-日韩福利在线-成年人免费观看在线视频-久久久www-91在线视频观看无毒不卡-999国产精品-91久久爽久久爽爽久久片-和搜子居同的日子2hd高清看-鬼眼 电影-中文在线精品-综合网久久-国产精品美女久久久久久

我們?yōu)槭裁匆O(shè)置動(dòng)態(tài)ip?

我們?cè)谑褂肞ython爬蟲(chóng)爬取一個(gè)網(wǎng)站的時(shí)候,通常會(huì)頻繁訪問(wèn)該網(wǎng)站。 假設(shè)一個(gè)網(wǎng)站可以檢測(cè)到某個(gè)IP地址在一定時(shí)間內(nèi)的訪問(wèn)次數(shù),如果該IP地址在一定時(shí)間內(nèi)持續(xù)被訪問(wèn)并且訪問(wèn)次數(shù)遠(yuǎn)遠(yuǎn)超過(guò)正常用戶的訪問(wèn)次數(shù) ,則該網(wǎng)站將禁止該IP地址繼續(xù)訪問(wèn)。 因此,這時(shí)候可以設(shè)置一些代理服務(wù)器來(lái)幫助您完成工作。 每次訪問(wèn)時(shí)間過(guò)長(zhǎng)或者訪問(wèn)頻率特別高的時(shí)候,可以換一個(gè)IP代理,這樣就不會(huì)因?yàn)樵L問(wèn)頻繁而被禁止了,訪問(wèn)現(xiàn)象。  
 
我們?cè)趯W(xué)習(xí)Python爬蟲(chóng)的時(shí)候,經(jīng)常會(huì)遇到想要爬取的網(wǎng)站采用了反爬取技術(shù),導(dǎo)致爬取失敗。 網(wǎng)頁(yè)信息的高強(qiáng)度、高效率爬取,往往給網(wǎng)絡(luò)服務(wù)器帶來(lái)巨大壓力。 因此,如果同一個(gè)IP重復(fù)爬取同一個(gè)網(wǎng)頁(yè),極有可能被攔截。 所以下面這篇文章介紹了一個(gè)爬蟲(chóng)技巧,設(shè)置代理IP 
 
這里我們介紹一個(gè)代理IP,Rhino代理,只需要使用
 
配置環(huán)境
 
來(lái)安裝requests  library
 
安裝bs4庫(kù)
 
安裝lxml庫(kù)
 
具體代碼
 
不多說(shuō),直接上傳代碼
 
 
function get_ip_list(url, headers) 傳入url和headers,最后返回一個(gè)IP列表。 列表的元素類似于 122.114.31.177:808 的格式。 這個(gè)列表包括國(guó)內(nèi)隱藏代理IP網(wǎng)站首頁(yè)的所有IP地址和端口 
 
函數(shù) get_random_ip(ip_list) 傳入第一個(gè)函數(shù)得到的列表,并返回一個(gè)隨機(jī)代理。 這個(gè)代理可以傳遞給請(qǐng)求的get方法,這樣每次運(yùn)行都可以使用不同的IP訪問(wèn)被爬取的網(wǎng)站,有效避免真實(shí)IP被屏蔽的風(fēng)險(xiǎn)
 
代理格式是 一本字典:{'http':'http://122.114.31.177:808'},可以改下面的執(zhí)行也封裝了一個(gè)方法
 
為了抓取IP,Xspur代理的服務(wù)器做了反爬蟲(chóng)處理。 如果頻繁抓取,服務(wù)器會(huì)主動(dòng)返回503錯(cuò)誤提示block,所以在請(qǐng)求的時(shí)候可以先一次保存一個(gè)文件讀取這個(gè)文件,或者抓取一個(gè)ip使用幾分鐘,然后 再爬一次,相當(dāng)于加了一個(gè)計(jì)時(shí)函數(shù) 
 
使用代理IP 
 
運(yùn)行上面的代碼會(huì)得到一個(gè)隨機(jī)的代理,可以直接傳入request的get方法 
 
動(dòng)態(tài)IP模擬器
县级市| 衡东县| 彭州市| 广饶县| 忻城县| 蒲城县| 宣威市| 棋牌| 枣强县| 宝鸡市| 东宁县| 滦南县| 宁国市| 集贤县| 杭锦后旗| 彭阳县| 石首市| 长治市| 五常市| 田阳县| 白沙| 南汇区| 雅江县| 聂拉木县| 鄂伦春自治旗| 库伦旗| 广州市| 清水县| 庄河市| 泰兴市| 濮阳市| 巫溪县| 石林| 乾安县| 沂南县| 揭阳市| 盐源县| 昌江| 新巴尔虎右旗| 弥渡县| 青川县|