欢迎光临
我们一直在努力

python爬虫刷网课,爬虫python全套教学

Python爬取网络图片使用正则表达式解析Html格式的文件(其他更好的方法以后会继续更新)

获取慕课网课程图片

网站链接
http://www.imooc.com/search/?words=python

图1 网站页面

从网站上获取课程图片
首先查看页面html代码

图2 html代码

图3 html代码

可知图片的一个标签链接样式是
http://便宜香港vpsszimg.mukewang.com/5859ed790001b9da05400300-360-202.jpg
获取这个链接图片即可

Python代码

环境是python3.6 IDE是pycharm

import re #正则表达式模块from urllib import request #urllib的request模块可以非常方便地抓取URL内容 #也就是发送一个GET请求到指定的页面,然后返回HTTP的响应req = request.urlopen(‘http://www.imooc.com/search/?words=python’)buf = req.read()buf = buf.decode(‘utf-8′)listurl = re.findall(r’http:.+\.jpg’, buf) #从数据中查找http:开头 .jpg结尾的链接i = 0 #计数器for url in listurl: f = open(‘E:/Temp/’ + str(i) + ‘.jpg’, ‘wb’) #选择保存 req_ = request.urlopen(url) #打开这个url(图片链接) buf_ = req_.read() #读取数据到buf中 f.write(buf_) #将数据写入文件 i += 1 f.close()

最后在文件目录下可以查看到图片

46347678

赞(1)
【声明】:本博客不参与任何交易,也非中介,仅记录个人感兴趣的主机测评结果和优惠活动,内容均不作直接、间接、法定、约定的保证。访问本博客请务必遵守有关互联网的相关法律、规定与规则。一旦您访问本博客,即表示您已经知晓并接受了此声明通告。