url縮短python,url縮短器

本文目錄一覽：

1、Python3中對壓縮post請求的處理，我用fillder獲取到的url編碼的post請求數據比
2、python中url太長怎麼解決
3、優化Python爬蟲速度的方法有哪些
4、親們，我想問一下，怎麼把淘客的url網址縮短啊
5、url編碼問題在python中怎麼解決

Python3中對壓縮post請求的處理，我用fillder獲取到的url編碼的post請求數據比

我是做爬蟲的：

我感覺是不是你的思路有問題？

post數據和get數據弄混了，post提交數據，提交數據的地址就是actions的指向，如果沒有寫，那就是當前頁，抓包應該都是一樣的呀！get提交數據是直接在url中帶參數的，抓包都是一樣的，你可能抓包出問題了

python中url太長怎麼解決

今天寫了個腳本主要就是實現利用SQLInj點直接把數據獲取到本地並存到Mysql資料庫中

學過Python的都知道可以使用urllib2中的request()方法直接打開Url，但僅限於url後沒有跟複雜的參數串

今天我利用的Url是

‘ and (select top 1 cast(CONTENT as varchar(8000)) from xxx.dbo.xxx where cast(CONTENT as varchar) not in (select top 22 cast(CONTENT as varchar) from xxx.dbo.xxx))=0–

開始我也直接用以下語句測試的：

url=”上面的URL”

req=urllib2.Request(url)

urllib2.urlopen(req)

可是執行後一直提示500錯誤，由此可以發現應該是Python在對Url進行編碼的時候更改了某些特殊字元造成Url失效

我們可以用urllib2或urllib的quote()方法控制對特殊字元的URL編碼,這裡推薦用 urllib下的quote_plus()方法，它將空格轉化成’+’而非%20通用性更好。

我們更改後的代碼如下:

url = “‘ and (select top 1 cast(CONTENT as varchar(8000)) from xxx.dbo.xxx where cast(CONTENT as varchar) not in (select top “+str(count)+” cast(CONTENT as varchar) from xxx.dbo.xxx))=0–”

quoteUrl=urllib.quote_plus(url,safe=’:\’/?=()’)

fd = urllib.urlopen(quoteUrl)

這樣我們就可以正常的提取數據了

優化Python爬蟲速度的方法有哪些

很多爬蟲工作者都遇到過抓取非常慢的問題，尤其是需要採集大量數據的情況下。那麼如何提高爬蟲採集效率就十分關鍵，那一塊了解如何提高爬蟲採集效率問題。

1.儘可能減少網站訪問次數

單次爬蟲的主要把時間消耗在網路請求等待響應上面，所以能減少網站訪問就減少網站訪問，既減少自身的工作量，也減輕網站的壓力，還降低被封的風險。

第一步要做的就是流程優化，盡量精簡流程，避免在多個頁面重複獲取。

隨後去重，同樣是十分重要的手段，一般根據url或者id進行唯一性判別，爬過的就不再繼續爬了。

2.分散式爬蟲

即便把各種法子都用盡了，單機單位時間內能爬的網頁數仍是有限的，面對大量的網頁頁面隊列，可計算的時間仍是很長，這種情況下就必須要用機器換時間了，這就是分散式爬蟲。

第一步，分散式並不是爬蟲的本質，也並不是必須的，對於互相獨立、不存在通信的任務就可手動對任務分割，隨後在多個機器上各自執行，減少每台機器的工作量，費時就會成倍減少。

例如有200W個網頁頁面待爬，可以用5台機器各自爬互不重複的40W個網頁頁面，相對來說單機費時就縮短了5倍。

可是如果存在著需要通信的狀況，例如一個變動的待爬隊列，每爬一次這個隊列就會發生變化，即便分割任務也就有交叉重複，因為各個機器在程序運行時的待爬隊列都不一樣了——這種情況下只能用分散式，一個Master存儲隊列，其他多個Slave各自來取，這樣共享一個隊列，取的情況下互斥也不會重複爬取。IPIDEA提供高匿穩定的IP同時更注重用戶隱私的保護，保障用戶的信息安全。含有240＋國家地區的ip，支持API批量使用，支持多線程高並發使用。

親們，我想問一下，怎麼把淘客的url網址縮短啊

超級簡單，你可以把你的鏈接，發ＱＱ微博，然後發出去的鏈接就已經縮短了，你再複製就可以使用了。你參考這個：，就是縮短的網址。做淘客，ＶＬＩＮＡ.ＣＯＭ提供更好的空間，你可以看看。

url編碼問題在python中怎麼解決

最近在抓取一些js代碼產生的動態數據，需要模擬js請求獲得所需用的數據，遇到對url進行編碼和解碼的問題，就把遇到的問題總結一下，有總結才有進步，才能使學到的知識更加清晰。對url進行編碼和解碼，python提供了很方便的介面進行調用。

url中的query帶有特殊字元（不是url的保留字）時需要進行編碼。當url中帶有漢字時，需要特殊的處理才能正確編碼，以下都只針對這種情形，當然也適用於純英文字元的url。

(1) url編碼：

import urllib

url = ‘wd=哈哈’ #如果此網站編碼是gbk的話，需要進行解碼，從gbk解碼成unicode，再從Unicode編碼編碼為utf-8格式。

url = url.decode(‘gbk’, ‘replace’)

print urllib.quote(url.encode(‘utf-8’, ‘replace’))

結果: 3a%2f%2ftest.com%2fs%3fwd%3d%e5%93%88%e5%93%88

(2) url解碼:

import urllib

encoded_url = est.com%2fs%3fwd%3d%e5%93%88%e5%93%88′

print urllib.unquote(encoded_url).decode(‘utf-8’, ‘replace’).encode(‘gbk’, ‘replace’) #反過來

函數調用的參數以及結果都是utf-8編碼的，所以在對url編碼時，需要將參數串的編碼從原始編碼轉換成utf-8，

對url解碼時，需要將解碼結果從utf-8轉換成原始編碼格式。

依據網站採用的編碼不同，或是gbk或是utf-8，賦賦予不同的編碼，進行不同的url轉碼。GBK格式，一個中文字元轉為%xx%xx，共兩組；utf-8格式，一個中文字元轉為%xx%xx%xx，共三組。

import sys,urllib

s = ‘杭州’

urllib.quote(s.decode(sys.stdin.encoding).encode(‘gbk’))

%BA%BC%D6%DD

urllib.quote(s.decode(sys.stdin.encoding).encode(‘utf8’))

‘%E6%9D%AD%E5%B7%9E’

[python] view plain copy

a = “墨西哥女孩被拐4年接客4萬次生的孩子成為人質-搜狐新聞”

print urllib.quote(urllib.quote(a))

進行兩次編碼轉換後，會變為：%25E5%25A2%25A8%25E8%25A5%25BF%25E5%2593%25A5%25E5%25A5%25B3%25E5%25AD%25A9%25E8%25A2%25AB%25E6%258B%25904%25E5%25B9………………………………………………………………………這樣的形式。

同樣需要兩次解碼後才能得到中文。

最近用python寫了個小爬蟲自動下點東西，但是url 是含中文的，而且中文似乎是 gbk 編碼然後轉成 url的。舉個例子吧，我如果有個unicode字元串「歷史上那些牛人們.pdf」，那麼我轉換成url之後是，

t=”%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf”，

但是對方網站給的是 s=”%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF”

print urllib.unquote(“%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF”).decode(‘gbk’).encode(‘utf-8’)

歷史上那些牛人們.PDF

原創文章，作者：EYDWR，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/325507.html