国产精品主播一区二区-国产一级不卡毛片-日本少妇中出-国产视频第二页-青草精品视频-亚洲熟妇丰满多毛xxxx-日韩福利在线-成年人免费观看在线视频-久久久www-91在线视频观看无毒不卡-999国产精品-91久久爽久久爽爽久久片-和搜子居同的日子2hd高清看-鬼眼 电影-中文在线精品-综合网久久-国产精品美女久久久久久

高質(zhì)量代理ip分布式爬蟲的使用

如果沒(méi)有代理ip,爬蟲業(yè)務(wù)肯定沒(méi)有辦法工作,所以大部分爬蟲工作者都會(huì)購(gòu)買安全穩(wěn)定的代理ip。使用高質(zhì)量的代理ip后,你能沒(méi)有后顧之憂嗎?不會(huì)那么容易。我們需要改進(jìn)方案,有效分配資源,提高工作效率,快速、穩(wěn)定、高效地完成爬蟲。
 
 
方案一。每個(gè)進(jìn)程從接口API中隨機(jī)選擇一個(gè)IP列表重復(fù)使用,失敗后再調(diào)用API獲取。一般邏輯如下:
 
1.對(duì)于每個(gè)進(jìn)程,從接口隨機(jī)檢索一批ip,反復(fù)嘗試ip目錄抓取數(shù)據(jù);
 
2.如果訪問(wèn)成功,繼續(xù)抓取下一個(gè)。

3.如果失敗,請(qǐng)從接口中取出一批IP,然后重試。
 
缺點(diǎn):每個(gè)IP都有時(shí)間限制。如果抽取一百個(gè),用第二十個(gè),可能剩下的大部分都用不上。如果設(shè)置HTTP請(qǐng)求時(shí)連接時(shí)間超時(shí)為3秒,讀取時(shí)間超時(shí)為5秒,可能需要3-8秒,在這3-8秒內(nèi)可能被抓取上百次。
 
方案二:每個(gè)進(jìn)程從接口API中隨機(jī)選擇一個(gè)IP使用。如果失敗,它調(diào)用應(yīng)用編程接口來(lái)獲取一個(gè)IP,一般邏輯如下:
 
1.每個(gè)進(jìn)程從接口中隨機(jī)檢索一個(gè)ip,并使用這個(gè)ip來(lái)瀏覽資源。
 
2.如果訪問(wèn)成功,繼續(xù)趕上下一個(gè)。
 
3.如果失敗,從接口中隨機(jī)選擇一個(gè)IP并繼續(xù)嘗試。
 
缺點(diǎn):調(diào)用API獲取IP的行為非常頻繁,會(huì)給代理服務(wù)器帶來(lái)很大的壓力,影響API接口的穩(wěn)定性,可能會(huì)限制抽取。這種方案不適合,不能長(zhǎng)期穩(wěn)定運(yùn)行。
 
方案三:首先提取大量IP導(dǎo)入本地?cái)?shù)據(jù)庫(kù),從數(shù)據(jù)庫(kù)中提取IP。一般邏輯如下:

1.在數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)表,編寫一個(gè)導(dǎo)入腳本,以及每分鐘有多少個(gè)API請(qǐng)求將IP列表導(dǎo)入數(shù)據(jù)庫(kù)。
 
2.在數(shù)據(jù)庫(kù)中記錄imPort時(shí)間、IP、端口、過(guò)期時(shí)間、IP可用性等字段;
 
3.編寫一個(gè)爬行腳本,從數(shù)據(jù)庫(kù)中讀取可用的IP,每個(gè)進(jìn)程從數(shù)據(jù)庫(kù)中獲取一個(gè)IP供使用。
 
4.進(jìn)行抓取,判斷結(jié)果,處理cookie等。如果有驗(yàn)證碼或者失敗,放棄這個(gè)IP,換成另一個(gè)IP。
 
該方案有效避免了IP代理服務(wù)器資源的消耗,有效分配了代理IP的使用,更加高效穩(wěn)定,保證了爬蟲工作的持久性和穩(wěn)定性。
 
宜章县| 文水县| 广平县| 辉南县| 安西县| 理塘县| 华池县| 桐城市| 灵璧县| 柳江县| 左云县| 河南省| 彭泽县| 芦山县| 安庆市| 洛阳市| 堆龙德庆县| 海口市| 林西县| 满洲里市| 洛南县| 醴陵市| 泽库县| 山阳县| 双峰县| 安丘市| 乌鲁木齐市| 宝应县| 古蔺县| 运城市| 道孚县| 潼南县| 绵阳市| 泽普县| 炎陵县| 巍山| 城步| 揭东县| 县级市| 西盟| 区。|