url缩短python,url缩短器

本文目录一览：

1、Python3中对压缩post请求的处理，我用fillder获取到的url编码的post请求数据比
2、python中url太长怎么解决
3、优化Python爬虫速度的方法有哪些
4、亲们，我想问一下，怎么把淘客的url网址缩短啊
5、url编码问题在python中怎么解决

Python3中对压缩post请求的处理，我用fillder获取到的url编码的post请求数据比

我是做爬虫的：

我感觉是不是你的思路有问题？

post数据和get数据弄混了，post提交数据，提交数据的地址就是actions的指向，如果没有写，那就是当前页，抓包应该都是一样的呀！get提交数据是直接在url中带参数的，抓包都是一样的，你可能抓包出问题了

python中url太长怎么解决

今天写了个脚本主要就是实现利用SQLInj点直接把数据获取到本地并存到Mysql数据库中

学过Python的都知道可以使用urllib2中的request()方法直接打开Url，但仅限于url后没有跟复杂的参数串

今天我利用的Url是

‘ and (select top 1 cast(CONTENT as varchar(8000)) from xxx.dbo.xxx where cast(CONTENT as varchar) not in (select top 22 cast(CONTENT as varchar) from xxx.dbo.xxx))=0–

开始我也直接用以下语句测试的：

url=”上面的URL”

req=urllib2.Request(url)

urllib2.urlopen(req)

可是执行后一直提示500错误，由此可以发现应该是Python在对Url进行编码的时候更改了某些特殊字符造成Url失效

我们可以用urllib2或urllib的quote()方法控制对特殊字符的URL编码,这里推荐用 urllib下的quote_plus()方法，它将空格转化成’+’而非%20通用性更好。

我们更改后的代码如下:

url = “‘ and (select top 1 cast(CONTENT as varchar(8000)) from xxx.dbo.xxx where cast(CONTENT as varchar) not in (select top “+str(count)+” cast(CONTENT as varchar) from xxx.dbo.xxx))=0–”

quoteUrl=urllib.quote_plus(url,safe=’:\’/?=()’)

fd = urllib.urlopen(quoteUrl)

这样我们就可以正常的提取数据了

优化Python爬虫速度的方法有哪些

很多爬虫工作者都遇到过抓取非常慢的问题，尤其是需要采集大量数据的情况下。那么如何提高爬虫采集效率就十分关键，那一块了解如何提高爬虫采集效率问题。

1.尽可能减少网站访问次数

单次爬虫的主要把时间消耗在网络请求等待响应上面，所以能减少网站访问就减少网站访问，既减少自身的工作量，也减轻网站的压力，还降低被封的风险。

第一步要做的就是流程优化，尽量精简流程，避免在多个页面重复获取。

随后去重，同样是十分重要的手段，一般根据url或者id进行唯一性判别，爬过的就不再继续爬了。

2.分布式爬虫

即便把各种法子都用尽了，单机单位时间内能爬的网页数仍是有限的，面对大量的网页页面队列，可计算的时间仍是很长，这种情况下就必须要用机器换时间了，这就是分布式爬虫。

第一步，分布式并不是爬虫的本质，也并不是必须的，对于互相独立、不存在通信的任务就可手动对任务分割，随后在多个机器上各自执行，减少每台机器的工作量，费时就会成倍减少。

例如有200W个网页页面待爬，可以用5台机器各自爬互不重复的40W个网页页面，相对来说单机费时就缩短了5倍。

可是如果存在着需要通信的状况，例如一个变动的待爬队列，每爬一次这个队列就会发生变化，即便分割任务也就有交叉重复，因为各个机器在程序运行时的待爬队列都不一样了——这种情况下只能用分布式，一个Master存储队列，其他多个Slave各自来取，这样共享一个队列，取的情况下互斥也不会重复爬取。IPIDEA提供高匿稳定的IP同时更注重用户隐私的保护，保障用户的信息安全。含有240＋国家地区的ip，支持API批量使用，支持多线程高并发使用。

亲们，我想问一下，怎么把淘客的url网址缩短啊

超级简单，你可以把你的链接，发ＱＱ微博，然后发出去的链接就已经缩短了，你再复制就可以使用了。你参考这个：，就是缩短的网址。做淘客，ＶＬＩＮＡ.ＣＯＭ提供更好的空间，你可以看看。

url编码问题在python中怎么解决

最近在抓取一些js代码产生的动态数据，需要模拟js请求获得所需用的数据，遇到对url进行编码和解码的问题，就把遇到的问题总结一下，有总结才有进步，才能使学到的知识更加清晰。对url进行编码和解码，python提供了很方便的接口进行调用。

url中的query带有特殊字符（不是url的保留字）时需要进行编码。当url中带有汉字时，需要特殊的处理才能正确编码，以下都只针对这种情形，当然也适用于纯英文字符的url。

(1) url编码：

import urllib

url = ‘wd=哈哈’ #如果此网站编码是gbk的话，需要进行解码，从gbk解码成unicode，再从Unicode编码编码为utf-8格式。

url = url.decode(‘gbk’, ‘replace’)

print urllib.quote(url.encode(‘utf-8’, ‘replace’))

结果: 3a%2f%2ftest.com%2fs%3fwd%3d%e5%93%88%e5%93%88

(2) url解码:

import urllib

encoded_url = est.com%2fs%3fwd%3d%e5%93%88%e5%93%88′

print urllib.unquote(encoded_url).decode(‘utf-8’, ‘replace’).encode(‘gbk’, ‘replace’) #反过来

函数调用的参数以及结果都是utf-8编码的，所以在对url编码时，需要将参数串的编码从原始编码转换成utf-8，

对url解码时，需要将解码结果从utf-8转换成原始编码格式。

依据网站采用的编码不同，或是gbk或是utf-8，赋赋予不同的编码，进行不同的url转码。GBK格式，一个中文字符转为%xx%xx，共两组；utf-8格式，一个中文字符转为%xx%xx%xx，共三组。

import sys,urllib

s = ‘杭州’

urllib.quote(s.decode(sys.stdin.encoding).encode(‘gbk’))

%BA%BC%D6%DD

urllib.quote(s.decode(sys.stdin.encoding).encode(‘utf8’))

‘%E6%9D%AD%E5%B7%9E’

[python] view plain copy

a = “墨西哥女孩被拐4年接客4万次生的孩子成为人质-搜狐新闻”

print urllib.quote(urllib.quote(a))

进行两次编码转换后，会变为：%25E5%25A2%25A8%25E8%25A5%25BF%25E5%2593%25A5%25E5%25A5%25B3%25E5%25AD%25A9%25E8%25A2%25AB%25E6%258B%25904%25E5%25B9………………………………………………………………………这样的形式。

同样需要两次解码后才能得到中文。

最近用python写了个小爬虫自动下点东西，但是url 是含中文的，而且中文似乎是 gbk 编码然后转成 url的。举个例子吧，我如果有个unicode字符串“历史上那些牛人们.pdf”，那么我转换成url之后是，

t=”%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf”，

但是对方网站给的是 s=”%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF”

print urllib.unquote(“%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF”).decode(‘gbk’).encode(‘utf-8’)

历史上那些牛人们.PDF

原创文章，作者：EYDWR，如若转载，请注明出处：https://www.506064.com/n/325507.html