python3爬取图片(python爬虫入门教程:爬取网页图片)
时间2025-05-05 17:19:01分类IT科技浏览5094
导读:在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:...
在现在这个信息爆炸的时代 ,要想高效的获取数据 ,爬虫是非常好用的 。而用python做爬虫也十分简单方便 ,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:
首先是要用到的库 ,因为是刚入门最简单的程序 ,我们主要就用到下面这两:
其中re是python自带的 ,requests库需要我们自己安装 ,在命令行中输入pip install requests即可 。
然后随便找一个网站 ,注意不要尝试爬取隐私敏感信息 ,这里找了个表情包网站:
注:此处表情包网站中的内容本来就可以免费下载 ,所以爬虫只是简化了我们一个个点的流程 ,注意不能去爬取付费资源 。
我们要做的就是通过爬虫把这些表情包下载到我们电脑里 。
编写爬虫程序
首先肯定要通过python访问这个网站 ,代码如下:
headers = {
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0
}
response = requests.get(https://qq.yh31.com/zjbq/,headers=headers) //请求网页
其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头 。可以随便找一个或者f12从网络信息里复制一个 。
然后我们要找到我们要爬取的图片在网页代码里的位置 ,f12查看源代码 ,找到表情包如下:
然后建立匹配规则,用正则表达式把中间那串替换掉 ,最简单的就是.*?
t = <img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" >
像这样 。
然后就可以调用re库里的findall方法把相关内容爬下来了:
result = re.findall(t, response.text)
返回的内容是由字符串组成的列表 ,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了 。
程序代码
import requests
import re
import os
image = 表情包
if not os.path.exists(image):
os.mkdir(image)
headers = {
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0
}
response = requests.get(https://qq.yh31.com/zjbq/,headers=headers)
response.encoding = GBK
response.encoding = utf-8
print(response.request.headers)
print(response.status_code)
t = <img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" >
result = re.findall(t, response.text)
for img in result:
print(img)
res = requests.get(img[0])
print(res.status_code)
s = img[0].split(.)[-1] #截取图片后缀 ,得到表情包格式 ,如jpg ,gif
with open(image + / + img[1] + . + s, mode=wb) as file:
file.write(res.content)
最后结果就是这个样子:
声明:本站所有文章 ,如无特殊说明或标注 ,均为本站原创发布 。任何个人或组织 ,在未征得本站同意时 ,禁止复制 、盗用 、采集 、发布本站内容到任何网站 、书籍等各类媒体平台 。如若本站内容侵犯了原著者的合法权益 ,可联系我们进行处理 。
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!