直在修改)。
第二類:JAVA單機爬蟲優點:支持多線程。
支持代理。
能過濾重復URL的。
負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關,往往需要通過模擬瀏覽器(買粉絲unit,selenium)來完成。
缺點:設計模式對軟件開發沒有指導性作用。用設計模式來設計爬蟲,只會使得爬蟲的設計更加臃腫。第三類:非JAVA單機爬蟲優點:先說python爬蟲,python可以用30行代碼,完成JAVA
50行代碼干的任務。python寫代碼的確快,但是在調試代碼的階段,python代碼的調試往往會耗費遠遠多于編碼階段省下的時間。
使用python開發,要保證程序的正確性和穩定性,就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜,使用scrapy這種爬蟲也是蠻不錯的,可以輕松完成爬取任務。
缺點:bug較多,不穩定。