Python爬取网络图片使用正则表达式解析Html格式的文件(其他更好的方法以后会继续更新)
获取慕课网课程图片
网站链接
http://www.imooc.com/search/?words=python
图1 网站页面
从网站上获取课程图片
首先查看页面html代码
图2 html代码
图3 html代码
可知图片的一个标签链接样式是
http://便宜香港vpsszimg.mukewang.com/5859ed790001b9da05400300-360-202.jpg
获取这个链接图片即可
Python代码
环境是python3.6 IDE是pycharm
import re #正则表达式模块from urllib import request #urllib的request模块可以非常方便地抓取URL内容 #也就是发送一个GET请求到指定的页面,然后返回HTTP的响应req = request.urlopen(‘http://www.imooc.com/search/?words=python’)buf = req.read()buf = buf.decode(‘utf-8′)listurl = re.findall(r’http:.+\.jpg’, buf) #从数据中查找http:开头 .jpg结尾的链接i = 0 #计数器for url in listurl: f = open(‘E:/Temp/’ + str(i) + ‘.jpg’, ‘wb’) #选择保存 req_ = request.urlopen(url) #打开这个url(图片链接) buf_ = req_.read() #读取数据到buf中 f.write(buf_) #将数据写入文件 i += 1 f.close()
最后在文件目录下可以查看到图片
46347678