衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Scrapy怎么爬取Python文件

汽車電子技術 ? 來源:Python數據分析之旅 ? 作者:cauwfq ? 2023-02-24 15:16 ? 次閱讀

圖片

一.項目背景

之前文章[Scrapy爬蟲框架初步使用介紹](http://mp.weixin.qq.com/s?__biz=MzIzODI4ODM2MA==&mid=2247484881&idx=1&sn=5d205c3315927845fed5aa4dfbb4f4da&chksm=e93ae956de4d604052e6d18ca10fc081f32cd8479a11420cd13fe20bbb963044b13d55b15390&scene=21#wechat_redirect)我們介紹了Scrapy框架運行基本原理,緊接著我們介紹了如何利用Scrapy爬取文本數據[Scrapy+MySQL+MongoDB爬取豆瓣讀書做簡單數據分析](http://mp.weixin.qq.com/s?__biz=MzIzODI4ODM2MA==&mid=2247484898&idx=1&sn=763a73b7d4b7c991d1aeb2ceb389b686&chksm=e93ae965de4d6073da55c6db07bfe142c1d18ca744dae33214a2dba8940db348616e256a7e50&scene=21#wechat_redirect),以及如何利用Scrapy爬取圖片[Scrapy爬取某網站美女圖片](http://mp.weixin.qq.com/s?__biz=MzIzODI4ODM2MA==&mid=2247486610&idx=1&sn=e05d207e965d7bcc0507a195f25da2b9&chksm=e93ae015de4d69031ae847bf5f12adef61e82d263aa8366e9533a58c7011b6396b4a05051cea&scene=21#wechat_redirect),本次我們分享如何利用Scrapy爬取文件。
本次我們爬取目標網頁為:https://matplotlib.org/2.0.2/examples/index.html

圖片

二.實現過程

1.創建項目
   》》scrapy startproject matplot_file
   》》進入該目錄 cd matplot_file
   》》生成爬蟲 scrapy genspider mat  matplotlib.org
   》》運行爬蟲 scrapy crawl mat -o mat_file.json

圖片

2.數據爬取
  》》解析數據
  》》存儲數據

圖片

# -*- coding: utf-8 -*-
import scrapy
from matplot_file.items import MatplotFileItem




class MatSpider(scrapy.Spider):
    name = 'mat'
    allowed_domains = ['matplotlib.org']
    start_urls = ['https://matplotlib.org/2.0.2/examples/index.html']


    def parse(self, response):
        #獲取所有li元素
        for lis in response.xpath('//*[@id="matplotlib-examples"]/div/ul/li'):
            #遍歷li元素
            for li in lis.xpath('.//ul/li'):
                #獲取鏈接
                url=li.xpath('.//a/@href').get()
                #拼接鏈接
                url = response.urljoin(url)
                #爬取文本
                yield scrapy.Request(url, callback=self.parse_html)


    #解析文本
    def parse_html(self,response):
        #獲取文件鏈接
        href = response.xpath('//div[@class="section"]/p/a/@href').get()
        #拼接鏈接
        url=response.urljoin(href)
        #打印控制臺
        print(url)
        #初始化對象
        matfile=MatplotFileItem()
        #存儲對象
        matfile['file_urls']=[url]
        #返回數據
        yield   matfile

【注】以上是mat.py中代碼
# -*- coding: utf-8 -*-
BOT_NAME = 'matplot_file'


SPIDER_MODULES = ['matplot_file.spiders']
NEWSPIDER_MODULE = 'matplot_file.spiders'




#設置FilePipeline
ITEM_PIPELINES = {
    'scrapy.pipelines.files.FilesPipeline':1,
    }
#設設置文件保存路徑
FILES_STORE = 'mat_file'
ROBOTSTXT_OBEY = False


【注】以上是settings.py中代碼
import scrapy




class MatplotFileItem(scrapy.Item):
    # define the fields for your item here like:


    #文件url
    file_urls = scrapy.Field()
    #下載文件信息
    files = scrapy.Field()


【注】以上是items.py中代碼

圖片

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7139

    瀏覽量

    89576
  • 框架
    +關注

    關注

    0

    文章

    403

    瀏覽量

    17543
  • 運行
    +關注

    關注

    0

    文章

    25

    瀏覽量

    15438
收藏 人收藏

    評論

    相關推薦

    python實現網頁爬蟲圖片

    來實現這樣一個簡單的爬蟲功能,把我們想要的代碼取到本地,功能有點類似我們之前學過的批處理。下面就看看如何使用python來實現這樣一個功能,主要分為三步,如下:一. 獲取整個頁面數據首先我們可以先
    發表于 04-05 15:32

    Python爬蟲與Web開發庫盤點

    Python爬蟲和Web開發均是與網頁相關的知識技能,無論是自己搭建的網站還是爬蟲去別人的網站,都離不開相應的Python庫,以下是常用的Python爬蟲與Web開發庫。1.爬蟲庫
    發表于 05-10 15:21

    python

    python學習1.數據2.圖片
    發表于 09-21 18:18

    采用xpath網站內容

    xpathmooc網課程
    發表于 04-11 12:01

    基于Python3對攜程網頁上北京五星級酒店列表的

    Python3 攜程網[1] 根據好評優先順序,獲取北京五星級酒店列表
    發表于 04-19 16:25

    基于Python實現一只小爬蟲拉勾網職位信息的方法

    通俗易懂的分析如何用Python實現一只小爬蟲,拉勾網的職位信息
    發表于 05-17 06:54

    python學習筆記-安裝scrapy

    的。。下載后會自動安裝 OK,Scrapy終于完全安裝完畢了我將所有安裝文件以及上文提到的python代碼也一起打包,下載地址在下面 http://download.csdn.net/detail/tkfeng29/900266
    發表于 07-10 07:49

    Python3安裝scrapy時pip install twisted失敗

    Python3安裝scrapy的玄學
    發表于 08-14 07:22

    python音頻文件的步驟

    python爬蟲音頻文件
    發表于 08-22 14:23

    scrapy爬蟲小說方法

    scrapy小說(一)
    發表于 09-19 06:29

    Python豆瓣電影信息和存儲數據庫

    Python——豆瓣電影信息并存儲數據庫
    發表于 03-11 11:19

    Python CSDN的極客頭條

    Python 如何CSDN的極客頭條呢?
    的頭像 發表于 03-21 14:58 ?4886次閱讀
    <b class='flag-5'>Python</b> <b class='flag-5'>爬</b><b class='flag-5'>取</b>CSDN的極客頭條

    如何使用Scrapy網站數據

    網頁抓取的主要目標是從無結構的來源提取出結構信息。Scrapy爬蟲以Python字典的形式返回提取數據。盡管Python字典既方便又熟悉,但仍然不夠結構化:字段名容易出現拼寫錯誤,返回不一致的信息,特別是在有多個爬蟲的大型項目中
    的頭像 發表于 07-26 09:06 ?5220次閱讀

    python爬蟲框架Scrapy實戰案例!

    tart_urls:的URL列表。爬蟲從這里開始抓取數據,所以,第一次下載的數據將會從這些urls開始。其他子URL將會從這些起始URL中繼承性生成。
    的頭像 發表于 12-07 16:12 ?2.3w次閱讀
    <b class='flag-5'>python</b>爬蟲框架<b class='flag-5'>Scrapy</b>實戰案例!

    如何用python抖音app數據

    記錄一下如何用pythonapp數據,本文以抖音視頻app為例。
    的頭像 發表于 03-16 09:07 ?5416次閱讀
    百家乐款| 杨公24山| 大连娱网棋牌大厅| 百家乐翻天youtube| 百家乐官网购怎么样| 大赢家| 明溪百家乐的玩法技巧和规则| 百家乐官网视频美女| 威尼斯人娱乐城存款多少起存| 澳门百家乐官网先赢后输| 线上百家乐手机版| 网上的百家乐官网怎么才能赢| 百家乐投注方法网| 新澳门百家乐官网的玩法技巧和规则| 娱乐城送钱| 金博士百家乐的玩法技巧和规则 | 百家乐官网怎么出千| 南通棋牌游戏中心下载| 网上百家乐官网的玩法技巧和规则| 百家乐官网不倒翁缺点| 如何赢百家乐的玩法技巧和规则| 百家乐庄闲分布概率| 哪家百家乐官网从哪而来| 澳门百家乐官网庄闲的玩法| 天等县| 六合彩走势图| 君怡百家乐的玩法技巧和规则 | 金牌百家乐官网的玩法技巧和规则| 百家乐官网真钱路怎么看| 顶级赌场连环夺宝下载 | 广州百家乐官网赌城| 百家乐官网发牌靴遥控| 百家乐官网优博u2bet| 百家乐官网怎么会赢| 同江市| 百家乐官网如何制| 百家乐的破解方法| 百家乐官网境外赌博| 棋牌易发| 百家乐新送彩金| 太阳百家乐官网管理网|