当前位置: 首页 > news >正文

Python爬虫(6)-selenium用requests、wget、urllib3这3种方法搞定图片和PDF文件下载

在这里插入图片描述
之前的文章有关于更多操作方式详细解答,本篇基于前面的知识点进行操作,如果不了解可以先看之前的文章
Python爬虫(1)一次性搞定Selenium(新版)8种find_element元素定位方式
Python爬虫(2)-Selenium控制浏览器
Python爬虫(3)-Selenium结合pywin32模拟键盘操作
Python爬虫(4)-Selenium模拟鼠标操作

selenium下载图片和PDF的文件的方式有很多种,可以使用自带的下载方式,也可以使用模拟鼠标右键点击的方式去储存和下载不过这两种方式都不太推荐使用,因为我们的使用

selenium的目的主要是为了做一些爬虫,爬虫多数时候需要下载大量的图片和文件,这里就需要使用其他的方式来进行下载文件

Python爬虫(6)-selenium用requests、wget、urllib3、Boto3、asyncio5种方法搞定图片和PDF文件下载

  • 1.使用requests下载文件
    • 下载图片
    • 下载PDF文件
  • 2.使用wget下载文件
    • 下载图片
    • 下载PDF文件
  • 3.使用urllib3下载文件
    • 下载图片
    • 下载PDF文件

下载前的工作,需要定位好图片的地址
在这里插入图片描述
完成定位之后我们需要获取到图片的地址也就是src

from selenium import webdriver
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
opt = ChromeOptions()            # 创建Chrome参数对象
opt.headless = False            # 把Chrome设置成可视化无界面模式,windows/Linux 皆可
driver = Chrome(options=opt)
driver.get('https://www.pexels.com/zh-cn/photo/931177/')
ab = driver.find_element(By.XPATH,'//*[@id="__next"]/main/div/div[2]/div/div/img').get_attribute('src')
print(ab)

获取到src之后我们就可以进行下一步操作
在这里插入图片描述

1.使用requests下载文件

下载图片

首先导入requests,把定位找到的图片地址传入dowlimg,写入文件,即可将下载好的文件存入本地

import requests
dowlimg = requests.get(ab)
open('imgtest.jpeg','wb').write(dowlimg.content)
driver.close()

在这里插入图片描述

下载PDF文件

下载PDF文件也是一个道理只要你能够通过selenium定位获取到地址,传入给request就能够把文件给下载下来

import requests
url = 'https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf'
dowlimg = requests.get(url)
open('PDF.pdf','wb').write(dowlimg.content)

2.使用wget下载文件

下载图片

使用wget下载有个麻烦点就是有些网站设置了反爬虫时会出现403拒绝的情况,尝试用了用户代理那些都失败,只能用于下载没有反爬虫的网站图片

import wget
url = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"
wget.download(url,'image.jpeg')

在这里插入图片描述

下载PDF文件

import wget
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"
wget.download(url,'pdf1.pdf')

在这里插入图片描述

3.使用urllib3下载文件

下载图片

import urllib
url = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"
urllib.request.urlretrieve(url, 'img1.jpeg')

下载PDF文件

import urllib
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"
urllib.request.urlretrieve(url, 'img1.jpeg')

在这里插入图片描述

相关文章:

  • 【python学习笔记】:方便好用的自动化脚本
  • 如何使用Python中处理word文档的模块—docx模块
  • 【Python语言基础】——Python 文件处理
  • Go性能调优及相关工具使用(四)——性能调优工具pprof的使用
  • SRE:如何提高报警有效性?
  • C生万物 | 窥探数组设计的种种陷阱
  • git解决代码冲突问题
  • DefTet
  • 单片机阻塞延时与非阻塞延时(1)
  • Kubernetes 入门
  • 深入探讨YOLOv8 网络架构
  • 【NLP】一种基于联合方式的三元组抽取模型——CasRel
  • 接口自动化测试-python-笔记
  • OpenPPL PPQ量化(3):量化计算图的加载和预处理 源码剖析
  • ES6 简介(二)
  • Spring Boot 最新版3.x 集成 OAuth 2.0实现认证授权服务、第三方应用客户端以及资源服务
  • ESP32开发板Arduino IDE更新指南
  • 【day4】 谷粒商城-前端相关(不全,没认真看)
  • 程序编译的过程
  • Spring由哪些模块组成
  • 电加热油锅炉工作原理_电加热导油
  • 大型电蒸汽锅炉_工业电阻炉
  • 燃气蒸汽锅炉的分类_大连生物质蒸汽锅炉
  • 天津市维修锅炉_锅炉汽化处理方法
  • 蒸汽汽锅炉厂家_延安锅炉厂家
  • 山西热水锅炉厂家_酒店热水 锅炉
  • 蒸汽锅炉生产厂家_燃油蒸汽发生器
  • 燃煤锅炉烧热水_张家口 淘汰取缔燃煤锅炉
  • 生物质锅炉_炉
  • 锅炉天然气_天燃气热风炉