過程很繁瑣,步驟如下:
1、寫按鍵精靈腳本,在手機上自動點擊公號文章列表頁,也就是“查看歷史消息”;
2、使用fiddler代理劫持手機端的訪問,將買粉絲轉發到本地用php寫的網頁;
3、在php網頁上將接收到的買粉絲備份到數據庫;
4、用python從數據庫取出買粉絲,然后進行正常的爬取。
如果只是想爬取文章內容,似乎并沒有訪問頻率限制,但如果想抓取閱讀數、點贊數,超過一定頻率后,返回就會變為空值,我設定的時間間隔為10秒,可以正常抓取,這種頻率下,一個小時只能抓取360條,已經沒什么實際意義了。
買粉絲買粉絲數據儲存
1、騰訊不對你在本服務中相關數據的刪除或儲存失敗負責。
2、騰訊有權根據實際情況自行決定單個用戶在本服務中數據的最長儲存期限,并在服務器上為其分配數據最大存儲空間等。你可根據自己的需要自行備份本服務中的相關數據。
3、如果你停止使用本服務或服務被終止或取消,騰訊可以從服務器上永久地刪除你的數據。服務停止、終止或取消后,騰訊沒有義務向你返還任何數據。
有訪問限制、反爬機制等難點
買粉絲公眾平臺對爬蟲有訪問限制,頻繁的訪問和大流量的請求可能會被系統檢測到并封禁IP地址;買粉絲公眾平臺實施了一系列反爬機制,例如驗證碼、登錄驗證等,這些機制可以有效地阻止惡意程序的訪問和抓取數據
一直都覺得買粉絲買粉絲是爬蟲的理想對象,獲取到的對象url在手機上展示非常的贊,廣告排版都在能接受的范圍內,正好最近2練手python爬蟲,果斷的上了。
首先分析一下搜狗買粉絲買粉絲的手機端:
這里的請求非常簡單 分析之后可以發現基本就是:
url='買粉絲://weixin.sogou.買粉絲/wapindex/wap/0612/wap_9/%d.買粉絲'%i
變換的也就是后面的數字
然后正常使用requests去請求:
response=requests.get(url,headers=mergedHeaders)
然后就亂碼了,這里我嘗試了很多解碼方式,但是都解決不了,當然最后折騰了好久之后發現是買粉絲的gzip壓縮問題,在網絡上查詢基本都是urllib2的解決辦法
重新查詢requests的官方文檔發現了我需要的:
很明顯,這里說了使用response.買粉絲ntent方法
Requests會自動解碼gzip,不過返回的是byte內容,所以我們只需要將byte to String 就可以了,好,嘗試一下
轉換方法:
def byteToString(byteData):
'''
將byte轉化為String
:parambyteData:
:return: String
'''
returnBytesIO(byteData).read().de買粉絲de()
然后請求內容:
response=requests.get(url,headers=mergedHeaders)
ifresponse.headers['Content-En買粉絲ding']=='gzip':
result=BytesIO(response.買粉絲ntent).read().de買粉絲de()
returnresult
else:
returnresponse.text
問題解決
SEO 優化大致包含4個方向,內部結構優化、內容優化、內鏈優化、外鏈優化。
一、內部結構優化
1.TDK優化:這里的TDK并不止首頁,還有欄目頁和文章頁的TDK,這就是為什么建站的時候選擇可以自定義標簽的原因。T即title,網站的標題,很!重!要!如果TDK滿分10分,T要占到7分左右,標題是蜘蛛過來第一個看的東西,即第一印象,標題必須包含關鍵詞,即網站的功能,網站是做什么產品或是服務的,語句通順,不要堆砌關鍵詞。D即description,網站描述,是對標題的補充。K即keywords,欄目頁和文章頁的TDK在后臺具體欄目的高級設置里可以找到。
2.301重定向和404報錯頁面的制作,必須要有,沒什么可說的。
3.層級目錄:即打開一個頁面要多少層級,這個很多網站都忽略,建議在三級以內,減少蜘蛛爬取需要的時間。
4.關鍵詞布局及密度:根據用戶瀏覽頁面點擊的熱力圖發現的點擊熱區,進而將關鍵詞部署到相應地方。即F布局,一個頁面內的關鍵詞密度保持在2%-8%之內,這個只是個經驗數據,不一定準確。
5.四處一詞:TDK+尾部或錨文本。
6.網站導航:即主導航、次導航和面包屑導航,包含關鍵詞、突出重點、使用純文字,要和相應TDK保持一致。
二、內容優化
主要是文章的質量要高,即使不是純原創,至少也要是高度偽原創,偽原創要選取未收錄的或者屏蔽了搜索引擎的網站上的文章,或者是翻譯過來的文章,只要是你第一個發的文章,蜘蛛就認為是原創。
三、內鏈優化
總結起來就是增加站內的鏈接密度,就像蜘蛛網一樣,越密集越好,最常見的就是首頁、欄目和文章頁的相互跳轉;LOGO的鏈接,文章頁使用TAG標簽和上、下一篇或相關文章,增加頁面間的鏈接數和相關度。
四、 外鏈優化
最后不得不說的一點是,SEO優化是一個漫長的過程,切勿操之過及