欢迎光临
我们一直在努力

小说网站爬虫

小说网站爬虫第一天

从今天开始,学习一下爬虫的知识,爬取小说网站。

第一天:

网站:http://www.bxwx9.org

小说:大主宰

语言:IDEA+java

jar包:maven工程,所以放上dependencies,每一个jar包的作用大家去研究一下

项目结构:

需求:获取小说的章节列表中的标题和URL

原理:

  • 用谷歌浏览器F12查看网页的内容,找到章节列表所在的元素


  • 使用标签选择器来选择需要的内容


    代码如下操作:


    中文乱码的解决:


运行的效果图:

明天继续!!!!

赞(0)
【声明】:本博客不参与任何交易,也非中介,仅记录个人感兴趣的主机测评结果和优惠活动,内容均不作直接、间接、法定、约定的保证。访问本博客请务必遵守有关互联网的相关法律、规定与规则。一旦您访问本博客,即表示您已经知晓并接受了此声明通告。