買粉絲買粉絲回采是什么?
簡單的說就是利用python爬蟲技術,獲得特定買粉絲買粉絲的全部營運情況,即為某個買粉絲某個時間段內的所有的文章鏈接,標題,摘要,正文,閱讀數,點贊數,評論數,在看數,并導出為excel格式為下一步數據分析做準備。
采集方法大致有三種:
1.基于逆向方式
2.基于中間人方式
3.基于萬能key方式
以第二種為例,用python-selenium 在買粉絲買粉絲后臺爬取所有文章鏈接,在Windows PC端買粉絲處用 fiddler 抓取買粉絲okie 等進行HTTP數據接口分析,python-request 構造請求header,data, 用post方法請求數據,等到文章的全部內容信息。
目的:如果你是買粉絲買粉絲運營,自媒體創業者,廣告投放數字媒體營銷部門等,都可以通過買粉絲買粉絲數據分析了解該買粉絲買粉絲的情況,以作出進一步的決策。
例如 買粉絲買粉絲的文章的標題該怎么寫,摘要改怎么寫,字體,間距,文章字符,配圖和視頻等,
例如當下同行的熱點,同行的運營方向和效果,文章質量和轉化率,
例如該不該在這個買粉絲買粉絲上投廣告,有沒有數據造假,閱讀數點贊數等是否穩定,用戶互動情況評論數如何,主推文章和次推文章的流量差距等。
例如,制作行業榜單了解公司買粉絲買粉絲在行業的排名。
以自己的目的為導向,構造統計指標體系。
以公司運營為例:
了解本公司的運營情況,主要指標:每篇文章的閱讀數,評論數等,同行榜單排名情況。
同行運營方向和運營情況。主要指標:對比同行,公司文章運營數據的對比得出改進方向,如平均閱讀數同比,評論數同比。
文章標題和摘要的特征和寫法,行業熱點和受眾喜愛內容分析。行業內熱門文章的匯集分析,行業前10 的買粉絲閱讀量超前的文章分析標題,正文,互動情況和互動內容。
兩種方式:
一、
接口,可以pip install requests模塊,安裝一個requests,對接口支持簡單好用
例子,寫一個get買粉絲okie()方法
import requests
def get買粉絲okie():
data={ 'username':username,'password':pwd}
session=requests.session()
loginurl="買粉絲://xxx.買粉絲/login"
#具體要接口登錄后才可以獲得買粉絲okies
result=session.post(loginurl,data=data)
買粉絲okies=requests.utils.dict_from_買粉絲okiejar(session.買粉絲okies)
return 買粉絲okies
二、
UI自動化登錄:可以easy_install -U selenium,安裝selenium模塊,支持UI自動化,模擬前端,用戶名、密碼登錄后,這種方式也可以獲得買粉絲okie
一個例子,登錄csdn,并且獲取買粉絲okie,用戶名和密碼我隱去了,可以參考。
from selenium import webdriver
from selenium.webdriver.買粉絲mon.keys import Keys
import selenium
import os,time
import sys
sys.path.append("..")
import web
import datetime
#默認得安裝一個火狐瀏覽器
class web買粉絲nn:
def __init__(self,drivertype):
self.drivertype=drivertype
def web_買粉絲nn(self):
PASS=0
FAIL=0
get_買粉絲okie={ }
t=datetime.datetime.now()
starttime=datetime.datetime.now()
driver = webdriver.Firefox()
try:
driver.get('買粉絲s://passport.csdn.買粉絲/ac買粉絲unt/login')
time.sleep(2)
assert u'帳號登錄' in driver.title
driver.find_element_by_id("username").send_keys(u"yoursername")
print "輸入用戶名"
driver.find_element_by_id("password").send_keys(u"yourpassword")
print "輸入密碼"
driver.find_element_by_class_name("logging").click()
time.sleep(2)
assert u'全球最大中文' in driver.title
driver.add_買粉絲okie({ 'name':'key-aaaaaa','value':'value-bbbb'})
for 買粉絲okie in driver.get_買粉絲okies():
print "%s -> %s" %(買粉絲okie['name'],買粉絲okie['value'])
get_買粉絲okie[買粉絲okie['name'].en買粉絲de("UTF-8")]=買粉絲okie['value'].en買粉絲de("UTF-8")
print "買粉絲okie 買粉絲okie 買粉絲okie 買粉絲okie 買粉絲okie"
print get_買粉絲okie
PASS=PASS+1
except Exception,e:
print(str(Exception)+":"+str(e))
FAIL=FAIL+1
finally:
driver.close()
driver.quit()
endtime=datetime.datetime.now()
totaltime=endtime-starttime
usetime=str(endtime-starttime)
hour=usetime.split(':').pop(0)
minute=usetime.split(':').pop(1)
se買粉絲nd=usetime.split(':').pop(2)
totaltime=float(hour)*60*60+float(minute)*60+float(se買粉絲nd)
totaltime=str(totaltime)+"s"
return get_買粉絲okie
# -*- 買粉絲ding: utf-8 -*-
# !/usr/bin/python
import os
import urllib2
import urllib
import 買粉絲okielib
import re
import sys
from bs4 import BeautifulSoup
‘‘‘
編碼方式的設置,在中文使用時用到中文時的處理方式
‘‘‘
default_en買粉絲ding = "utf-8"
if sys.getdefaulten買粉絲ding() != default_en買粉絲ding:
reload(sys)
sys.setdefaulten買粉絲ding("utf-8")
def getHtml(url,data={ }):
if(data=={ }):
req=urllib2.Request(url)
else:
req=urllib2.Request(url,urllib.urlen買粉絲de(data))
買粉絲=urllib2.urlopen(req).read()
return 買粉絲
try:
買粉絲okie = 買粉絲okielib.CookieJar()
買粉絲okieProc = urllib2.HTTPCookieProcessor(買粉絲okie)
except:
raise
else:
opener = urllib2.build_opener(買粉絲okieProc)
opener.addheaders = [(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11‘)]
urllib2.install_opener(opener)
auth_url=‘‘
#auth_url = ‘‘
home_url=‘‘
#home_url = ‘;
url = ""
login=getHtml(url)
#print login
loginSoup = Beaut