一、Selenium下載文件並另存為
在使用Selenium進行文件下載之前,需要先設置瀏覽器的下載目錄。這可以通過設置ChromeOptions來實現,具體代碼如下:
from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument("--disable-extensions") chrome_options.add_argument("--disable-popup-blocking") chrome_options.add_argument("--profile-directory=Default") chrome_options.add_argument("--disable-plugins-discovery") chrome_options.add_argument("--start-maximized") chrome_options.add_experimental_option("prefs", { "download.default_directory": "D:\\downloads", "download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True }) driver = webdriver.Chrome(chrome_options=chrome_options)
其中,download.default_directory是設置下載文件的目錄,download.prompt_for_download表示不彈出下載提示框,download.directory_upgrade表示如果文件已經下載過,則直接覆蓋原文件。使用這些設置之後,就可以通過Selenium直接下載文件並保存到指定的目錄了,代碼如下:
url = "http://xxxx/xxxx.pdf" driver.get(url)
二、Selenium下載文件路徑
在有些情況下,我們需要獲取下載文件的路徑,以用於後續操作。Selenium可以通過Chrome DevTools協議來實現這一功能,具體過程如下:
import json import os import time from selenium import webdriver from selenium.webdriver import ChromeOptions chrome_options = ChromeOptions() chrome_options.add_argument('--disable-dev-shm-usage') chrome_options.add_argument("--remote-debugging-port=9222")#啟動一個本地調試實例 browser = webdriver.Chrome(chrome_options=chrome_options) browser.get('http://example.com/test.pdf') time.sleep(5) response = browser.execute_cdp_cmd("Page.printToPDF", {}) pdf_data = response['data'] browser.quit() path = os.path.expanduser('~/Downloads/example.pdf') with open(path, 'wb') as f: f.write(pdf_data)
三、Selenium下載文件0k
在進行Selenium文件下載時,可能會遇到文件下載成功但是文件大小為0K的情況。這種情況一般是因為文件還沒有完全下載完畢就被打開了,或者是下載的不是完整的文件。可以通過修改ChromeOptions來解決這一問題,如下所示:
from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) chrome_options.add_argument("--headless") chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('--no-sandbox') browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下載完全結束 while True: if os.path.getsize('/path/to/dir/xxxx.pdf') > 0: break browser.quit()
四、Selenium下載文件進行斷言
在進行Selenium文件下載時,需要對下載的文件進行斷言,以確認下載的文件是否是預期的文件。可以通過讀取文件的MD5值、文件名、文件大小等方式來進行斷言,具體代碼如下:
import hashlib import os from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) expected_md5 = "xxxxxxxxxxxxxxxxxxxxxx" expected_size = 123456 # 等待下載完全結束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf'): actual_size = os.path.getsize('/path/to/dir/xxxx.pdf') actual_md5 = hashlib.md5(open('/path/to/dir/xxxx.pdf', 'rb').read()).hexdigest() if actual_md5 == expected_md5 and actual_size == expected_size: print("下載文件成功,MD5值和文件大小匹配") else: print("下載文件失敗,MD5值或文件大小不匹配") break browser.quit()
五、Selenium下載文件重命名
在進行Selenium文件下載時,可以對下載的文件進行重命名。這可以通過在ChromeOptions中添加args進行實現,具體代碼如下:
from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {"download.default_directory": "/path/to/dir"} chrome_options.add_experimental_option("prefs", prefs) chrome_options.add_argument("--disable-extensions") chrome_options.add_argument("--disable-popup-blocking") chrome_options.add_argument("--start-maximized") chrome_options.add_argument("--disable-plugins-discovery") chrome_options.add_argument("--disable-blink-features=AutomationControlled") chrome_options.add_argument("--user-data-dir=/var/tmp/user-data") chrome_options.add_argument("--profile-directory=Profile 1") chrome_options.add_argument('--disable-web-security') chrome_options.add_argument('--allow-running-insecure-content') chrome_options.add_argument('--allow-cross-origin-auth-prompt') chrome_options.add_argument('--disable-site-isolation-trials') chrome_options.add_argument('--log-level=3') chrome_options.add_argument('--silent') prefs.update({ "download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True, }) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下載完全結束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf'): os.rename('/path/to/dir/xxxx.pdf', '/path/to/dir/xxxx_final.pdf') break browser.quit()
六、Selenium下載文件下載完成再運行
在Selenium進行文件下載時,可能會遇到下載完成後無法立即運行的問題。這是因為下載完成後文件仍在保存到磁碟中,此時文件並不是完整的。為了解決這個問題,我們可以使用time.sleep()方法來等待一段時間,然後再運行下載的文件,具體代碼如下:
import os import time from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下載完全結束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0: break time.sleep(10) # 等待10秒鐘,讓文件下載完成 os.system("/usr/bin/open -a Preview /path/to/dir/xxxx.pdf") # mac下打開文件 browser.quit()
七、Selenium下載文件到不同文件夾
在Selenium進行文件下載時,可以將下載文件保存到不同的文件夾中,具體代碼如下:
import os from selenium import webdriver download_dir = "/path/to/dir" if not os.path.exists(download_dir): os.makedirs(download_dir) chrome_options = webdriver.ChromeOptions() prefs = {"download.default_directory": download_dir} chrome_options.add_experimental_option("prefs", prefs) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下載完全結束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0: break browser.quit()
八、Selenium下載文件是crdownload
在Selenium進行文件下載時,有時候文件的下載狀態會變為crdownload。這一般是因為文件還沒有完全下載完成就被打開了,或者是下載的不是完整的文件。可以通過等待直到文件下載完成為止來解決這個問題,具體代碼如下:
import os from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) chrome_options.add_argument("--headless") chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('--no-sandbox') browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下載完全結束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf.crdownload'): time.sleep(5) # 等待5秒鐘,讓文件下載完成 else: break browser.quit()
九、Selenium下載文件彈出窗口選取
在某些情況下,Selenium需要彈出文件選擇窗口才能下載文件。這可以通過執行JavaScript腳本來實現,代碼如下:
import os from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {"download.default_directory": "/path/to/dir"} chrome_options.add_argument("--headless") chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('--no-sandbox') chrome_options.add_argument("--disable-web-security") chrome_options.add_argument("--allow-running-insecure-content") chrome_options.add_argument("--allow-cross-origin-auth-prompt") chrome_options.add_argument("--disable-site-isolation-trials") chrome_options.add_argument("--log-level=3") chrome_options.add_argument("--silent") prefs.update({"download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True}) chrome_options.add_experimental_option("prefs", prefs) browser = webdriver.Chrome(chrome_options=chrome_options) browser.get("http://xxxx/xxxx.html") element = browser.find_element_by_css_selector("#download") element.click() # 等待彈出文件選擇窗口 while len(browser.window_handles) == 1: time.sleep(0.1) # 切換窗口,選擇文件並下載 browser.switch_to.window(browser.window_handles[-1]) browser.execute_script("document.querySelector('#folder').value = '/path/to/dir';") browser.execute_script("document.querySelector('#filename').value = 'xxxx.pdf';") browser.execute_script("document.querySelector('#save').click();") # 等待下載完成 while True: if os.path.isfile('/path/to/dir/xxxx.pdf'): break browser.quit()
以上就是關於Selenium文件下載的詳細介紹,希望對大家有所幫助。
原創文章,作者:EKRP,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/142008.html