Selenium下載文件

一、Selenium下載文件並另存為

在使用Selenium進行文件下載之前,需要先設置瀏覽器的下載目錄。這可以通過設置ChromeOptions來實現,具體代碼如下:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--profile-directory=Default")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--start-maximized")
chrome_options.add_experimental_option("prefs", {
    "download.default_directory": "D:\\downloads",
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True
})

driver = webdriver.Chrome(chrome_options=chrome_options)

其中,download.default_directory是設置下載文件的目錄,download.prompt_for_download表示不彈出下載提示框,download.directory_upgrade表示如果文件已經下載過,則直接覆蓋原文件。使用這些設置之後,就可以通過Selenium直接下載文件並保存到指定的目錄了,代碼如下:

url = "http://xxxx/xxxx.pdf"
driver.get(url)

二、Selenium下載文件路徑

在有些情況下,我們需要獲取下載文件的路徑,以用於後續操作。Selenium可以通過Chrome DevTools協議來實現這一功能,具體過程如下:

import json
import os
import time

from selenium import webdriver
from selenium.webdriver import ChromeOptions

chrome_options = ChromeOptions()
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument("--remote-debugging-port=9222")#啟動一個本地調試實例
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://example.com/test.pdf')
time.sleep(5)
response = browser.execute_cdp_cmd("Page.printToPDF", {})
pdf_data = response['data']
browser.quit()

path = os.path.expanduser('~/Downloads/example.pdf')
with open(path, 'wb') as f:
    f.write(pdf_data)

三、Selenium下載文件0k

在進行Selenium文件下載時,可能會遇到文件下載成功但是文件大小為0K的情況。這種情況一般是因為文件還沒有完全下載完畢就被打開了,或者是下載的不是完整的文件。可以通過修改ChromeOptions來解決這一問題,如下所示:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)
# 等待下載完全結束
while True:
    if os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break
browser.quit()

四、Selenium下載文件進行斷言

在進行Selenium文件下載時,需要對下載的文件進行斷言,以確認下載的文件是否是預期的文件。可以通過讀取文件的MD5值、文件名、文件大小等方式來進行斷言,具體代碼如下:

import hashlib
import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

expected_md5 = "xxxxxxxxxxxxxxxxxxxxxx"
expected_size = 123456

# 等待下載完全結束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        actual_size = os.path.getsize('/path/to/dir/xxxx.pdf')
        actual_md5 = hashlib.md5(open('/path/to/dir/xxxx.pdf', 'rb').read()).hexdigest()

        if actual_md5 == expected_md5 and actual_size == expected_size:
            print("下載文件成功,MD5值和文件大小匹配")
        else:
            print("下載文件失敗,MD5值或文件大小不匹配")
        break

browser.quit()

五、Selenium下載文件重命名

在進行Selenium文件下載時,可以對下載的文件進行重命名。這可以通過在ChromeOptions中添加args進行實現,具體代碼如下:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_experimental_option("prefs", prefs)
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--start-maximized")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
chrome_options.add_argument("--user-data-dir=/var/tmp/user-data")
chrome_options.add_argument("--profile-directory=Profile 1")
chrome_options.add_argument('--disable-web-security')
chrome_options.add_argument('--allow-running-insecure-content')
chrome_options.add_argument('--allow-cross-origin-auth-prompt')
chrome_options.add_argument('--disable-site-isolation-trials')
chrome_options.add_argument('--log-level=3')
chrome_options.add_argument('--silent')
prefs.update({
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True,
})

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下載完全結束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        os.rename('/path/to/dir/xxxx.pdf', '/path/to/dir/xxxx_final.pdf')
        break

browser.quit()

六、Selenium下載文件下載完成再運行

在Selenium進行文件下載時,可能會遇到下載完成後無法立即運行的問題。這是因為下載完成後文件仍在保存到磁碟中,此時文件並不是完整的。為了解決這個問題,我們可以使用time.sleep()方法來等待一段時間,然後再運行下載的文件,具體代碼如下:

import os
import time

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下載完全結束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

time.sleep(10) # 等待10秒鐘,讓文件下載完成
os.system("/usr/bin/open -a Preview /path/to/dir/xxxx.pdf") # mac下打開文件
browser.quit()

七、Selenium下載文件到不同文件夾

在Selenium進行文件下載時,可以將下載文件保存到不同的文件夾中,具體代碼如下:

import os

from selenium import webdriver

download_dir = "/path/to/dir"
if not os.path.exists(download_dir):
    os.makedirs(download_dir)

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": download_dir}
chrome_options.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下載完全結束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

browser.quit()

八、Selenium下載文件是crdownload

在Selenium進行文件下載時,有時候文件的下載狀態會變為crdownload。這一般是因為文件還沒有完全下載完成就被打開了,或者是下載的不是完整的文件。可以通過等待直到文件下載完成為止來解決這個問題,具體代碼如下:

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下載完全結束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf.crdownload'):
        time.sleep(5) # 等待5秒鐘,讓文件下載完成
    else:
        break

browser.quit()

九、Selenium下載文件彈出窗口選取

在某些情況下,Selenium需要彈出文件選擇窗口才能下載文件。這可以通過執行JavaScript腳本來實現,代碼如下:

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument("--disable-web-security")
chrome_options.add_argument("--allow-running-insecure-content")
chrome_options.add_argument("--allow-cross-origin-auth-prompt")
chrome_options.add_argument("--disable-site-isolation-trials")
chrome_options.add_argument("--log-level=3")
chrome_options.add_argument("--silent")
prefs.update({"download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True})
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get("http://xxxx/xxxx.html")
element = browser.find_element_by_css_selector("#download")
element.click()

# 等待彈出文件選擇窗口
while len(browser.window_handles) == 1:
    time.sleep(0.1)

# 切換窗口,選擇文件並下載
browser.switch_to.window(browser.window_handles[-1])
browser.execute_script("document.querySelector('#folder').value = '/path/to/dir';")
browser.execute_script("document.querySelector('#filename').value = 'xxxx.pdf';")
browser.execute_script("document.querySelector('#save').click();")

# 等待下載完成
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        break

browser.quit()

以上就是關於Selenium文件下載的詳細介紹,希望對大家有所幫助。

原創文章,作者:EKRP,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/142008.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
EKRP的頭像EKRP
上一篇 2024-10-10 08:46
下一篇 2024-10-10 08:46

相關推薦

  • vue下載無後綴名的文件被加上後綴.txt,有後綴名的文件下載正常問題的解決

    本文旨在解決vue下載無後綴名的文件被加上後綴.txt,有後綴名的文件下載正常的問題,提供完整的代碼示例供參考。 一、分析問題 首先,需了解vue中下載文件的情況。一般情況下,我們…

    編程 2025-04-29
  • 如何在Java中拼接OBJ格式的文件並生成完整的圖像

    OBJ格式是一種用於表示3D對象的標準格式,通常由一組頂點、面和紋理映射坐標組成。在本文中,我們將討論如何將多個OBJ文件拼接在一起,生成一個完整的3D模型。 一、讀取OBJ文件 …

    編程 2025-04-29
  • Python中讀入csv文件數據的方法用法介紹

    csv是一種常見的數據格式,通常用於存儲小型數據集。Python作為一種廣泛流行的編程語言,內置了許多操作csv文件的庫。本文將從多個方面詳細介紹Python讀入csv文件的方法。…

    編程 2025-04-29
  • Python程序文件的拓展

    Python是一門功能豐富、易於學習、可讀性高的編程語言。Python程序文件通常以.py為文件拓展名,被廣泛應用於各種領域,包括Web開發、機器學習、科學計算等。為了更好地發揮P…

    編程 2025-04-29
  • 為什麼用cmd運行Java時需要在文件內打開cmd為中心

    在Java開發中,我們經常會使用cmd在命令行窗口運行程序。然而,有時候我們會發現,在運行Java程序時,需要在文件內打開cmd為中心,這讓很多開發者感到疑惑,那麼,為什麼會出現這…

    編程 2025-04-29
  • Python zipfile解壓文件亂碼處理

    本文主要介紹如何在Python中使用zipfile進行文件解壓的處理,同時詳細討論在解壓文件時可能出現的亂碼問題的各種解決辦法。 一、zipfile解壓文件亂碼問題的根本原因 在P…

    編程 2025-04-29
  • Python將矩陣存為CSV文件

    CSV文件是一種通用的文件格式,在統計學和計算機科學中非常常見,一些數據分析工具如Microsoft Excel,Google Sheets等都支持讀取CSV文件。Python內置…

    編程 2025-04-29
  • Python如何導入py文件

    Python是一種開源的高級編程語言,因其易學易用和強大的生態系統而備受青睞。Python的import語句可以幫助用戶將一個模塊中的代碼導入到另一個模塊中,從而實現代碼的重用。本…

    編程 2025-04-29
  • Python合併多個相同表頭文件

    對於需要合併多個相同表頭文件的情況,我們可以使用Python來實現快速的合併。 一、讀取CSV文件 使用Python中的csv庫讀取CSV文件。 import csv with o…

    編程 2025-04-29
  • Python寫文件a

    Python語言是一種功能強大、易於學習、通用並且高級編程語言,它具有許多優點,其中之一就是能夠輕鬆地進行文件操作。文件操作在各種編程中都佔有重要的位置,Python作為開發人員常…

    編程 2025-04-29

發表回復

登錄後才能評論