python爬取图片的步骤,python简单爬取图片

本文目录一览:

linux下python怎么写爬虫获取图片

跟linux有什么关系,python是跨平台的,爬取图片的代码如下:

import urllib.requestimport osimport randomdef url_open(url):

req=urllib.request.Request(url)    #为请求设置user-agent,使得程序看起来更像一个人类

req.add_header(‘User-Agent’,’Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0′)    #代理IP,使用户能以不同IP访问,从而防止被服务器发现

”’iplist=[‘1.193.162.123:8000′,’1.193.162.91:8000′,’1.193.163.32:8000’]

proxy_support=urllib.request.ProxyHandler({‘http’:random.choice(iplist)})

opener=urllib.request.build_opener(proxy_support)

opener.addheaders=[(‘User-Agent’,’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER’)]

urllib.request.install_opener(opener)”’

response=urllib.request.urlopen(req)

html=response.read()    return htmldef get_page(url):

html=url_open(url).decode(‘utf-8’)

a=html.find(‘current-comment-page’)+23

b=html.find(‘]’,a)    #print(html[a:b])

return html[a:b]def find_imgs(url):

html=url_open(url).decode(‘utf-8’)

img_addrs=[]

a=html.find(‘img src=’)    while a!=-1:

b=html.find(‘.jpg’,a,a+140)        if b!=-1:            if html[a+9]!=’h’:

img_addrs.append(‘http:’+html[a+9:b+4])            else:

img_addrs.append(html[a+9:b+4])        else:

b=a+9

a=html.find(‘img src=’,b)    for each in img_addrs:

print(each+’我的打印’)    return img_addrsdef save_imgs(folder,img_addrs):

for each in img_addrs:        #print(‘one was saved’)

filename=each.split(‘/’)[-1]        with open(filename,’wb’) as f:

img=url_open(each)

f.write(img)def download_mm(folder=’ooxx’,pages=10):

os.mkdir(folder)

os.chdir(folder)

url=””

page_num=int(get_page(url))    for i in range(pages):

page_num=page_num-1

page_url=url+’page-‘+str(page_num)+’#comments’

img_addrs=find_imgs(page_url)

save_imgs(folder,img_addrs)if __name__==’__main__’:

download_mm()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374

完成

运行结果

Python如何爬取百度图片?

几乎所有的网站都会有反爬机制,这就需要在爬取网页时携带一些特殊参数,比如:user-agent、Cookie等等,可以在写代码的时候用工具将所有参数都带上。

python爬取图片时候url地址是下载图片时报错了?

你的参数可能不对,你可以加个teace来看看,在报错的第二十二行前,看一下参数是什么,type看一下类型再说。

希望懂的回答能帮到你

python如何利用requests和bs4爬取图片?

爬取网站的内容不管爬啥。肯定得找到需要爬取内容的位置。如果是图片的话。首先得找到图片的地址。把链接复制下来打开是你想要的图片的话。直接请求那个地址。写入文件就行。用二进制加后缀就能保存图片了。图片音乐和视频都是一样的。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/251992.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-13 17:33
下一篇 2024-12-13 17:33

相关推荐

  • 如何查看Anaconda中Python路径

    对Anaconda中Python路径即conda环境的查看进行详细的阐述。 一、使用命令行查看 1、在Windows系统中,可以使用命令提示符(cmd)或者Anaconda Pro…

    编程 2025-04-29
  • Python计算阳历日期对应周几

    本文介绍如何通过Python计算任意阳历日期对应周几。 一、获取日期 获取日期可以通过Python内置的模块datetime实现,示例代码如下: from datetime imp…

    编程 2025-04-29
  • Python中引入上一级目录中函数

    Python中经常需要调用其他文件夹中的模块或函数,其中一个常见的操作是引入上一级目录中的函数。在此,我们将从多个角度详细解释如何在Python中引入上一级目录的函数。 一、加入环…

    编程 2025-04-29
  • Python周杰伦代码用法介绍

    本文将从多个方面对Python周杰伦代码进行详细的阐述。 一、代码介绍 from urllib.request import urlopen from bs4 import Bea…

    编程 2025-04-29
  • Python列表中负数的个数

    Python列表是一个有序的集合,可以存储多个不同类型的元素。而负数是指小于0的整数。在Python列表中,我们想要找到负数的个数,可以通过以下几个方面进行实现。 一、使用循环遍历…

    编程 2025-04-29
  • Python程序需要编译才能执行

    Python 被广泛应用于数据分析、人工智能、科学计算等领域,它的灵活性和简单易学的性质使得越来越多的人喜欢使用 Python 进行编程。然而,在 Python 中程序执行的方式不…

    编程 2025-04-29
  • python强行终止程序快捷键

    本文将从多个方面对python强行终止程序快捷键进行详细阐述,并提供相应代码示例。 一、Ctrl+C快捷键 Ctrl+C快捷键是在终端中经常用来强行终止运行的程序。当你在终端中运行…

    编程 2025-04-29
  • Python清华镜像下载

    Python清华镜像是一个高质量的Python开发资源镜像站,提供了Python及其相关的开发工具、框架和文档的下载服务。本文将从以下几个方面对Python清华镜像下载进行详细的阐…

    编程 2025-04-29
  • Python字典去重复工具

    使用Python语言编写字典去重复工具,可帮助用户快速去重复。 一、字典去重复工具的需求 在使用Python编写程序时,我们经常需要处理数据文件,其中包含了大量的重复数据。为了方便…

    编程 2025-04-29
  • 蝴蝶优化算法Python版

    蝴蝶优化算法是一种基于仿生学的优化算法,模仿自然界中的蝴蝶进行搜索。它可以应用于多个领域的优化问题,包括数学优化、工程问题、机器学习等。本文将从多个方面对蝴蝶优化算法Python版…

    编程 2025-04-29

发表回复

登录后才能评论