Selenium下载文件

一、Selenium下载文件并另存为

在使用Selenium进行文件下载之前,需要先设置浏览器的下载目录。这可以通过设置ChromeOptions来实现,具体代码如下:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--profile-directory=Default")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--start-maximized")
chrome_options.add_experimental_option("prefs", {
    "download.default_directory": "D:\\downloads",
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True
})

driver = webdriver.Chrome(chrome_options=chrome_options)

其中,download.default_directory是设置下载文件的目录,download.prompt_for_download表示不弹出下载提示框,download.directory_upgrade表示如果文件已经下载过,则直接覆盖原文件。使用这些设置之后,就可以通过Selenium直接下载文件并保存到指定的目录了,代码如下:

url = "http://xxxx/xxxx.pdf"
driver.get(url)

二、Selenium下载文件路径

在有些情况下,我们需要获取下载文件的路径,以用于后续操作。Selenium可以通过Chrome DevTools协议来实现这一功能,具体过程如下:

import json
import os
import time

from selenium import webdriver
from selenium.webdriver import ChromeOptions

chrome_options = ChromeOptions()
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument("--remote-debugging-port=9222")#启动一个本地调试实例
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://example.com/test.pdf')
time.sleep(5)
response = browser.execute_cdp_cmd("Page.printToPDF", {})
pdf_data = response['data']
browser.quit()

path = os.path.expanduser('~/Downloads/example.pdf')
with open(path, 'wb') as f:
    f.write(pdf_data)

三、Selenium下载文件0k

在进行Selenium文件下载时,可能会遇到文件下载成功但是文件大小为0K的情况。这种情况一般是因为文件还没有完全下载完毕就被打开了,或者是下载的不是完整的文件。可以通过修改ChromeOptions来解决这一问题,如下所示:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)
# 等待下载完全结束
while True:
    if os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break
browser.quit()

四、Selenium下载文件进行断言

在进行Selenium文件下载时,需要对下载的文件进行断言,以确认下载的文件是否是预期的文件。可以通过读取文件的MD5值、文件名、文件大小等方式来进行断言,具体代码如下:

import hashlib
import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

expected_md5 = "xxxxxxxxxxxxxxxxxxxxxx"
expected_size = 123456

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        actual_size = os.path.getsize('/path/to/dir/xxxx.pdf')
        actual_md5 = hashlib.md5(open('/path/to/dir/xxxx.pdf', 'rb').read()).hexdigest()

        if actual_md5 == expected_md5 and actual_size == expected_size:
            print("下载文件成功,MD5值和文件大小匹配")
        else:
            print("下载文件失败,MD5值或文件大小不匹配")
        break

browser.quit()

五、Selenium下载文件重命名

在进行Selenium文件下载时,可以对下载的文件进行重命名。这可以通过在ChromeOptions中添加args进行实现,具体代码如下:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_experimental_option("prefs", prefs)
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--start-maximized")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
chrome_options.add_argument("--user-data-dir=/var/tmp/user-data")
chrome_options.add_argument("--profile-directory=Profile 1")
chrome_options.add_argument('--disable-web-security')
chrome_options.add_argument('--allow-running-insecure-content')
chrome_options.add_argument('--allow-cross-origin-auth-prompt')
chrome_options.add_argument('--disable-site-isolation-trials')
chrome_options.add_argument('--log-level=3')
chrome_options.add_argument('--silent')
prefs.update({
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True,
})

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        os.rename('/path/to/dir/xxxx.pdf', '/path/to/dir/xxxx_final.pdf')
        break

browser.quit()

六、Selenium下载文件下载完成再运行

在Selenium进行文件下载时,可能会遇到下载完成后无法立即运行的问题。这是因为下载完成后文件仍在保存到磁盘中,此时文件并不是完整的。为了解决这个问题,我们可以使用time.sleep()方法来等待一段时间,然后再运行下载的文件,具体代码如下:

import os
import time

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

time.sleep(10) # 等待10秒钟,让文件下载完成
os.system("/usr/bin/open -a Preview /path/to/dir/xxxx.pdf") # mac下打开文件
browser.quit()

七、Selenium下载文件到不同文件夹

在Selenium进行文件下载时,可以将下载文件保存到不同的文件夹中,具体代码如下:

import os

from selenium import webdriver

download_dir = "/path/to/dir"
if not os.path.exists(download_dir):
    os.makedirs(download_dir)

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": download_dir}
chrome_options.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

browser.quit()

八、Selenium下载文件是crdownload

在Selenium进行文件下载时,有时候文件的下载状态会变为crdownload。这一般是因为文件还没有完全下载完成就被打开了,或者是下载的不是完整的文件。可以通过等待直到文件下载完成为止来解决这个问题,具体代码如下:

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf.crdownload'):
        time.sleep(5) # 等待5秒钟,让文件下载完成
    else:
        break

browser.quit()

九、Selenium下载文件弹出窗口选取

在某些情况下,Selenium需要弹出文件选择窗口才能下载文件。这可以通过执行JavaScript脚本来实现,代码如下:

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument("--disable-web-security")
chrome_options.add_argument("--allow-running-insecure-content")
chrome_options.add_argument("--allow-cross-origin-auth-prompt")
chrome_options.add_argument("--disable-site-isolation-trials")
chrome_options.add_argument("--log-level=3")
chrome_options.add_argument("--silent")
prefs.update({"download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True})
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get("http://xxxx/xxxx.html")
element = browser.find_element_by_css_selector("#download")
element.click()

# 等待弹出文件选择窗口
while len(browser.window_handles) == 1:
    time.sleep(0.1)

# 切换窗口,选择文件并下载
browser.switch_to.window(browser.window_handles[-1])
browser.execute_script("document.querySelector('#folder').value = '/path/to/dir';")
browser.execute_script("document.querySelector('#filename').value = 'xxxx.pdf';")
browser.execute_script("document.querySelector('#save').click();")

# 等待下载完成
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        break

browser.quit()

以上就是关于Selenium文件下载的详细介绍,希望对大家有所帮助。

原创文章,作者:EKRP,如若转载,请注明出处:https://www.506064.com/n/142008.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
EKRPEKRP
上一篇 2024-10-10 08:46
下一篇 2024-10-10 08:46

相关推荐

  • vue下载无后缀名的文件被加上后缀.txt,有后缀名的文件下载正常问题的解决

    本文旨在解决vue下载无后缀名的文件被加上后缀.txt,有后缀名的文件下载正常的问题,提供完整的代码示例供参考。 一、分析问题 首先,需了解vue中下载文件的情况。一般情况下,我们…

    编程 2025-04-29
  • 如何在Java中拼接OBJ格式的文件并生成完整的图像

    OBJ格式是一种用于表示3D对象的标准格式,通常由一组顶点、面和纹理映射坐标组成。在本文中,我们将讨论如何将多个OBJ文件拼接在一起,生成一个完整的3D模型。 一、读取OBJ文件 …

    编程 2025-04-29
  • Python中读入csv文件数据的方法用法介绍

    csv是一种常见的数据格式,通常用于存储小型数据集。Python作为一种广泛流行的编程语言,内置了许多操作csv文件的库。本文将从多个方面详细介绍Python读入csv文件的方法。…

    编程 2025-04-29
  • Python程序文件的拓展

    Python是一门功能丰富、易于学习、可读性高的编程语言。Python程序文件通常以.py为文件拓展名,被广泛应用于各种领域,包括Web开发、机器学习、科学计算等。为了更好地发挥P…

    编程 2025-04-29
  • 为什么用cmd运行Java时需要在文件内打开cmd为中心

    在Java开发中,我们经常会使用cmd在命令行窗口运行程序。然而,有时候我们会发现,在运行Java程序时,需要在文件内打开cmd为中心,这让很多开发者感到疑惑,那么,为什么会出现这…

    编程 2025-04-29
  • Python zipfile解压文件乱码处理

    本文主要介绍如何在Python中使用zipfile进行文件解压的处理,同时详细讨论在解压文件时可能出现的乱码问题的各种解决办法。 一、zipfile解压文件乱码问题的根本原因 在P…

    编程 2025-04-29
  • Python将矩阵存为CSV文件

    CSV文件是一种通用的文件格式,在统计学和计算机科学中非常常见,一些数据分析工具如Microsoft Excel,Google Sheets等都支持读取CSV文件。Python内置…

    编程 2025-04-29
  • Python如何导入py文件

    Python是一种开源的高级编程语言,因其易学易用和强大的生态系统而备受青睐。Python的import语句可以帮助用户将一个模块中的代码导入到另一个模块中,从而实现代码的重用。本…

    编程 2025-04-29
  • Python合并多个相同表头文件

    对于需要合并多个相同表头文件的情况,我们可以使用Python来实现快速的合并。 一、读取CSV文件 使用Python中的csv库读取CSV文件。 import csv with o…

    编程 2025-04-29
  • Python写文件a

    Python语言是一种功能强大、易于学习、通用并且高级编程语言,它具有许多优点,其中之一就是能够轻松地进行文件操作。文件操作在各种编程中都占有重要的位置,Python作为开发人员常…

    编程 2025-04-29

发表回复

登录后才能评论