網絡爬蟲(Web Spider)又稱網絡蜘蛛、網絡機器人,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。
網絡爬蟲按照系統結構和實現技術,大致可分為一下幾種類型:
通用網絡爬蟲:就是盡可能大的網絡覆蓋率,如 搜索引擎(百度、雅虎和谷歌等…)。
聚焦網絡爬蟲:有目標性,選擇性地訪問萬維網來爬取信息。
增量式網絡爬蟲:只爬取新產生的或者已經更新的頁面信息。特點:耗費少,難度大
深層網絡爬蟲:通過提交一些關鍵字才能獲取的Web頁面,如登錄或注冊后訪問的頁面。
應用場景
爬蟲技術在科學研究
、Web安全
、產品研發
、輿情監控
等領域可以做很多事情。
在數據挖掘、機器學習、圖像處理等科學研究領域,如果沒有數據,則可以通過爬蟲從網上抓??;
在Web安全方面,使用爬蟲可以對網站是否存在某一漏洞進行批量驗證、利用;
在產品研發方面,可以采集各個商城物品價格,為用戶提供市場最低價;
在輿情監控方面,可以抓取、分析新浪微博的數據,從而識別出某用戶是否為水軍
學習爬蟲前的技術準備
(1). Python基礎語言: 基礎語法、運算符、數據類型、流程控制、函數、對象 模塊、文件操作、多線程、網絡編程 … 等
(2). W3C標準: HTML、CSS、JavaScript、Xpath、JSON
(3). HTTP標準: HTTP的請求過程、請求方式、狀態碼含義,頭部信息以及Cookie狀態管理
(4). 數據庫: SQLite、MySQL、MongoDB、Redis …
關于爬蟲的合法性
幾乎每個網站都有一個名為robots.txt的文檔,當然也有有些網站沒有設定。對于沒有設定robots.txt的網站可以通過網絡爬蟲獲取沒有口令加密的數據,也就是該網站所有頁面的數據都可以爬取。如果網站有文件robots.txt文檔,就要判斷是否有禁止訪客獲取數據 如:https://www.baidu.com/robots.txt
-
機器學習
+關注
關注
66文章
8438瀏覽量
133080 -
python
+關注
關注
56文章
4807瀏覽量
85037 -
爬蟲
+關注
關注
0文章
82瀏覽量
7006
發布評論請先 登錄
相關推薦
評論