不知道今年的春晚大家看了嗎?小編表示沒有看,而且是已經很多年沒有完整的看過春晚了,關于看春晚的熱情都是小時候的事了。如今,距離第一屆春晚 1983 年,整整過去了 39年,看過那么多春晚,哪一年、哪些節目、哪些人你還留有深刻印象呢?接下來,通過 Python 數據分析。
在網上找了很久發現沒有關于春晚完整的數據,都是不連貫的,節目單表是每一年春晚上表演的節目,包括:節目類型、節目名、演員名這幾項數據。這里我們就使用Python 抓取這類表格數據,方法簡單,幾行代碼就能搞定,簡單的示例代碼如下:
#! -*- encoding:utf-8 -*- import requests import random # 要訪問的目標頁面 targetUrl = "http://httpbin.org/ip" # 要訪問的目標HTTPS頁面 # targetUrl = "https://httpbin.org/ip" # 代理服務器(產品官網 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗證信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 設置 http和https訪問都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 設置IP切換頭 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
抓取下來的數據都比較混亂,需要用 Python 清洗處理一下就可以分析,這些不是重點,重點是在獲取數據的過程中,目標網站有封反爬策略比如封ip,所以在訪問過程中我加了代理,代碼部分主要是關于如何使用動態轉發模式代理示例,在學習爬蟲中對代理有疑問的可以看下這里https://www.16yun.cn/。在獲取數據之后就可以直接進入分析環節,從中我們可以看到誰導演春晚次數最多?誰主持春晚次數最多?誰上春晚次數最多等數據。
?
若有收獲,就點個贊吧
審核編輯:鄢孟繁
-
數據
+關注
關注
8文章
7145瀏覽量
89582 -
python
+關注
關注
56文章
4807瀏覽量
85040
發布評論請先 登錄
相關推薦
使用Python實現xgboost教程
適用于MySQL和MariaDB的Python連接器:可靠的MySQL數據連接器和數據庫
![適用于MySQL和MariaDB的<b class='flag-5'>Python</b>連接器:可靠的MySQL<b class='flag-5'>數據</b>連接器和<b class='flag-5'>數據</b>庫](https://file1.elecfans.com/web3/M00/06/57/wKgZPGeJ2kmAcWpWAAAh1ecL_LM122.png)
適用于Oracle的Python連接器:可訪問托管以及非托管的數據庫
阿里云成為總臺春晚云計算AI合作伙伴
阿里云攜手總臺春晚,開創云計算AI合作新篇章
使用Python進行串口通信的案例
如何利用python和API查詢IP地址?
pytorch和python的關系是什么
Python建模算法與應用
Python在AI中的應用實例
Python怎么讀取STM32串口數據?
今年春節,德施曼成“春晚御用”智能鎖,亮相總臺春晚直播間
![今年春節,德施曼成“<b class='flag-5'>春晚</b>御用”智能鎖,亮相總臺<b class='flag-5'>春晚</b>直播間](https://file.elecfans.com/web2/M00/8B/B8/poYBAGPYgIWAUKq9AABGM_G9-TY983.png)
評論