python訪問url,python訪問字典的值

本文目錄一覽:

如何用python訪問網頁並在表單處輸入內容

我用過selenium模擬瀏覽器

使用selenium的chrome或firefox的webdriver打開瀏覽器

driver.get(url) #訪問你的網頁from=driver.find_elements_by_xpath(“xxx”)通過xpath或id等方法鎖定到網頁上表單的那個元素後,用

from.send_keys(“xxx”)來輸入內容

怎樣處理python爬蟲中有中文的url

一,先舉個例子:比如你要處理的url鏈接

二,說你為什麼要處理中文,是因為url有中文requests請求不到數據還是其他原因,

你應該打開該網站,f12開發工具看請求的鏈接是什麼形式

三,url里的中文要轉化換成什麼,是MD5Z值(8a91ee17510f2b7401510f60a67f039c

),還是中文轉碼為%E5%A5這種

四,事情說清楚,想幹什麼,得到什麼結果,怎麼解決

url編碼問題在python中怎麼解決

最近在抓取一些js代碼產生的動態數據,需要模擬js請求獲得所需用的數據,遇到對url進行編碼和解碼的問題,就把遇到的問題總結一下,有總結才有進步,才能使學到的知識更加清晰。對url進行編碼和解碼,python提供了很方便的介面進行調用。

url中的query帶有特殊字元(不是url的保留字)時需要進行編碼。當url中帶有漢字時,需要特殊的處理才能正確編碼,以下都只針對這種情形,當然也適用於純英文字元的url。

(1) url編碼:

import urllib

url = ‘wd=哈哈’   #如果此網站編碼是gbk的話,需要進行解碼,從gbk解碼成unicode,再從Unicode編碼編碼為utf-8格式。

url = url.decode(‘gbk’, ‘replace’)

print urllib.quote(url.encode(‘utf-8’, ‘replace’))

結果: 3a%2f%2ftest.com%2fs%3fwd%3d%e5%93%88%e5%93%88

(2) url解碼:

import urllib

encoded_url = est.com%2fs%3fwd%3d%e5%93%88%e5%93%88′

print urllib.unquote(encoded_url).decode(‘utf-8’, ‘replace’).encode(‘gbk’, ‘replace’)  #反過來

函數調用的參數以及結果都是utf-8編碼的,所以在對url編碼時,需要將參數串的編碼從原始編碼轉換成utf-8,

對url解碼時,需要將解碼結果從utf-8轉換成原始編碼格式。

依據網站採用的編碼不同,或是gbk或是utf-8,賦賦予不同的編碼,進行不同的url轉碼。GBK格式,一個中文字元轉為%xx%xx,共兩組;utf-8格式,一個中文字元轉為%xx%xx%xx,共三組。

 import sys,urllib 

 s = ‘杭州’

 urllib.quote(s.decode(sys.stdin.encoding).encode(‘gbk’))

%BA%BC%D6%DD

 urllib.quote(s.decode(sys.stdin.encoding).encode(‘utf8’))

‘%E6%9D%AD%E5%B7%9E’

[python] view plain copy

a = “墨西哥女孩被拐4年接客4萬次 生的孩子成為人質-搜狐新聞”

print urllib.quote(urllib.quote(a))

進行兩次編碼轉換後,會變為:%25E5%25A2%25A8%25E8%25A5%25BF%25E5%2593%25A5%25E5%25A5%25B3%25E5%25AD%25A9%25E8%25A2%25AB%25E6%258B%25904%25E5%25B9………………………………………………………………………這樣的形式。

同樣需要兩次解碼後才能得到中文。

最近用python寫了個小爬蟲自動下點東西,但是url 是含中文的,而且中文似乎是 gbk 編碼然後轉成 url的。舉個例子吧,我如果有個unicode字元串「歷史上那些牛人們.pdf」,那麼我轉換成url之後是, 

t=”%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf”, 

但是對方網站給的是 s=”%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF”

print urllib.unquote(“%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF”).decode(‘gbk’).encode(‘utf-8’)

歷史上那些牛人們.PDF

python點擊訪問下一篇並爬取直到最後一頁

對於只是讀取某幾個網站更新內容的爬蟲完全沒必要在python代碼中實現增量的功能,直接在item中增加Url欄位。

item[‘Url’] = response.url

然後在數據端把儲存url的column設置成unique。

之後在python代碼中捕獲資料庫commit時返回的異常,忽略掉或者轉入log中都可以。

網上有說支持增量的,我看了代碼+實際測試,還是覺得不是增量的…

我的做法是pipeline的open_spider時讀取所有item裡面的url,做成一個parsed_urls的list,在rule的process_link中過濾掉這些已經下載的url,如果需要的話可以再item裡面加入last_notify屬性進一步擴展…

如何python獲取sql資料庫訪問的url

python

操作資料庫,要安裝一個Python和資料庫交互的包MySQL-python-1.2.2.win32-py2.5.exe,然後我們就可以使用MySQLdb這個包進行資料庫操作了。

操作步驟如下:

1、建立資料庫連接

import

MySQLdb

conn=MySQLdb.connect(host=”localhost”,user=”root”,passwd=”sa”,db=”mytable”)

  cursor=conn.cursor()

2、執行資料庫操作

n=cursor.execute(sql,param)

我們要使用連接對象獲得一個cursor對象,接下來,我們會使用cursor提供的方法來進行工作.

這些方法包括兩大類:1.執行命令,2.接收返回值

3、cursor用來執行命令的方法:

  callproc(self, procname,

args):用來執行存儲過程,接收的參數為存儲過程名和參數列表,返回值為受影響的行數

  execute(self, query,

args):執行單條sql語句,接收的參數為sql語句本身和使用的參數列表,返回值為受影響的行數

  executemany(self, query,

args):執行單挑sql語句,但是重複執行參數列表裡的參數,返回值為受影響的行數

 

nextset(self):移動到下一個結果集

  4、cursor用來接收返回值的方法:

 

fetchall(self):接收全部的返回結果行.

  fetchmany(self,

size=None):接收size條返回結果行.如果size的值大於返回的結果行的數量,則會返回cursor.arraysize條數據.

 

fetchone(self):返回一條結果行.

  scroll(self, value,

mode=’relative’):移動指針到某一行.如果mode=’relative’,則表示從當前所在行移動value條,如果mode=’absolute’,則表示從結果集的第一

行移動value條.

5、下面的代碼是一個完整的例子.

#使用sql語句,這裡要接收的參數都用%s佔位符.要注意的是,無論你要插入的數據是什麼類型,佔位符永遠都要用%s

sql=”insert

into cdinfo values(%s,%s,%s,%s,%s)”

#param應該為tuple或者list

param=(title,singer,imgurl,url,alpha)

#執行,如果成功,n的值為1

n=cursor.execute(sql,param)

#再來執行一個查詢的操作

cursor.execute(“select

* from cdinfo”)

#我們使用了fetchall這個方法.這樣,cds里保存的將會是查詢返回的全部結果.每條結果都是一個tuple類型的數據,這些tuple組成了一個tuple

cds=cursor.fetchall()

#因為是tuple,所以可以這樣使用結果集

print

cds[0][3]

#或者直接顯示出來,看看結果集的真實樣子

print

cds

#如果需要批量的插入數據,就這樣做

sql=”insert

into cdinfo values(0,%s,%s,%s,%s,%s)”

#每個值的集合為一個tuple,整個參數集組成一個tuple,或者list

param=((title,singer,imgurl,url,alpha),(title2,singer2,imgurl2,url2,alpha2))

#使用executemany方法來批量的插入數據.這真是一個很酷的方法!

n=cursor.executemany(sql,param)

需要注意的是(或者說是我感到奇怪的是),在執行完插入或刪除或修改操作後,需要調用一下conn.commit()方法進行提交.這樣,數據才會真正保

存在資料庫中.我不清楚是否是我的mysql設置問題,總之,今天我在一開始使用的時候,如果不用commit,那數據就不會保留在資料庫中,但是,數據

確實在資料庫呆過.因為自動編號進行了累積,而且返回的受影響的行數並不為0.

6、關閉資料庫連接

需要分別的關閉指針對象和連接對象.他們有名字相同的方法

cursor.close()

conn.close()

Django操作資料庫

django是一個出色的用於python的web框架。django連接有操作資料庫的api,使用起來十分簡潔。我們在settings.py中配置好所要連接的資料庫,然後在modules、view、urls中分別寫好業務邏輯

linux下使用python訪問伺服器中文件

如果你的腳本就在linux伺服器上,直接使用file讀取文件就可以操作了

m = file(“你的文件路徑”)

如果是遠程訪問,可能就需要架設http伺服器,然後通過url訪問,這個你可以看下urllib,urllib2這兩個python庫。

如果解決了您的問題請採納!

如果未解決請繼續追問

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/256366.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-15 12:40
下一篇 2024-12-15 12:40

相關推薦

  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • PHP和Python哪個好找工作?

    PHP和Python都是非常流行的編程語言,它們被廣泛應用於不同領域的開發中。但是,在考慮擇業方向的時候,很多人都會有一個問題:PHP和Python哪個好找工作?這篇文章將從多個方…

    編程 2025-04-29
  • Python for循環求1到100的積

    Python中的for循環可以方便地遍歷列表、元組、字典等數據類型。本文將以Python for循環求1到100的積為中心,從多個方面進行詳細闡述。 一、for循環語法 Pytho…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智慧、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python編程二級證書考試相關現已可以上網購買

    計算機二級Python考試是一項重要的國家級認證考試,也是Python編程的入門考試。與其他考試一樣,Python編程二級證書的考生需要進入正式考試,而為了備考,這篇文章將詳細介紹…

    編程 2025-04-29

發表回復

登錄後才能評論