• 多学科构建“大介入” 中国介入医师年会南京召开 2019-04-18
  • 明星高考奇葩事杨幂总分第一 赵薇丢准考证(组图) 2019-04-12
  • 西北大学新传院与西部网签约 开启校媒合作新模式 2019-04-12
  • 《习近平新闻思想讲义(2018年版)》出版发行 2019-04-07
  • 光明日报副总编辑沈卫星 2019-04-07
  • 5月一二三线城市房价环比都涨了,后续会咋样? 2019-04-06
  • 湖州吴兴:打造智慧健康养老“吴兴模式” 2019-04-06
  • 陕西卫计委党组书记胡志强被查,系山西省委原书记胡富国长子 2019-03-31
  • 荆楚网企业法人营业执照 2019-03-27
  • 江西吉安永丰县:芒种农忙(图) 2019-03-27
  • 智媒云图(Intell Vision):图书馆“书童” 2019-03-24
  • 北京:构筑“三维”立体防护网 保险业对非法集资说“NO” 2019-03-17
  • 800万尾鱼苗放流天津蓟州于桥水库 2019-03-17
  • 推动第三代杂交水稻研究 2019-03-06
  • 奇闻怪事:瑶族怪异风俗习惯之烟袋定情 2019-03-06
  • 冰球与足球: 冰球打架视频

    北京 切换校区

    全国24小时免费热线

    400-009-1906

    Java教程之使用Jsoup实现简单的爬虫技术

    时间:2019-03-08   来源:尚学堂   阅读:130

    1.Jsoup简述

    ? Java中支持的爬虫框架有很多,比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序。

    ? Jsoup拥有十分方便的api来处理html文档,比如参考了DOM对象的文档遍历方法,参考了CSS选择器的用法等等,因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

    2.快速开始

    1)编写HTML页面

    页面中表格的商品信息是我们要爬取的数据。其中属性pname类的商品名称,以及属于pimg类的商品图片。

    2)使用HttpClient读取HTML页面

    HttpClient是一个处理Http协议数据的工具,使用它可以将HTML页面作为输入流读进java程序中??梢源?/hc.apache.org/下载HttpClient的jar包。

    3)使用Jsoup解析html字符串

    通过引入Jsoup工具,直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。相关API可以参考Jsoup官方文档:https://jsoup.org/cookbook/

    下面我们使用Jsoup来获取上述html中指定的商品名称和价格的信息。

    至此,我们已经实现使用HttpClient+Jsoup爬取HTML页面数据的功能。接下来,我们让效果更直观一些,比如将爬取的数据存到数据库中,将图片存到服务器上。

    3.保存爬取的页面数据

    1)保存普通数据到数据库中

    将爬取的数据封装进实体Bean中,并存到数据库内。

    2)保存图片到服务器上

    直接通过下载图片的方式将图片保存到服务器本地。

    4.总结

    本案简单实现了使用HttpClient+Jsoup爬取网络数据,对于爬虫技术本身,还有很多值得深挖的地方,以后再为大家讲解。

    相关资讯

    • 北京校区
    • 山西校区
    • 郑州校区
    • 武汉校区
    • 四川校区
    • 长沙校区
    • 深圳校区
    • 上海校区
    • 广州校区
    • 保定招生办

    北京海淀区校区(总部):北京市海淀区西三旗街道建材城西路中腾建华商务大厦东侧二层尚学堂
    北京京南校区:北京亦庄经济开发区科创十四街6号院1号楼 赛蒂国际工业园
    咨询电话:400-009-1906 / 010-56233821
    面授课程: JavaEE培训、 大数据就业班培训、 大数据云计算周末班培训、 零基础大数据连读班培训、 大数据云计算高手班培训、 人工智能周末班培训、人工智能+Python全栈培训、 H5+PHP全栈工程师培训

    山西学区地址:山西省晋中市榆次区大学城大学生活广场万科商业A1座702

    郑州学区地址:河南电子商务产业园6号楼4层407
    咨询电话:0371-55177956

    武汉学区地址:湖北省武汉市江夏区江夏大道26号 宏信悦谷创业园4楼
    咨询电话:027-87989193

    四川学区地址:成都市高新区锦晖西一街99号布鲁明顿大厦2栋1003室
    咨询电话:028-65176856 / 13880900114

    网址://www.cssxt.com/
    咨询电话:0731-83072091

    深圳校区地址:深圳市宝安区航城街道航城大道航城创新创业园A4栋210(固戍地铁站C出口)
    咨询电话:0755-23061965 / 18898413781

    上海尚学堂松江校区地址:上海市松江区荣乐东路2369弄45号绿地伯顿大厦2层
    咨询电话:021-67690939

    广州校区地址:广州市天河区元岗横路31号慧通产业广场B区B1栋6楼尚学堂(地铁3号线或6号线到“天河客运站”D出口,右拐直走约800米)
    咨询电话:020-2989 6995

    保定招生办公室

    地址:河北省保定市竞秀区朝阳南大街777号鸿悦国际1101室

    电话:15132423123

    Copyright 2006-2019 北京尚学堂科技有限公司  京ICP备13018289号-19  京公网安备11010802015183  
    媒体联系:18610174079 闫老师  

    Java基础班,免费试学三周

  • 多学科构建“大介入” 中国介入医师年会南京召开 2019-04-18
  • 明星高考奇葩事杨幂总分第一 赵薇丢准考证(组图) 2019-04-12
  • 西北大学新传院与西部网签约 开启校媒合作新模式 2019-04-12
  • 《习近平新闻思想讲义(2018年版)》出版发行 2019-04-07
  • 光明日报副总编辑沈卫星 2019-04-07
  • 5月一二三线城市房价环比都涨了,后续会咋样? 2019-04-06
  • 湖州吴兴:打造智慧健康养老“吴兴模式” 2019-04-06
  • 陕西卫计委党组书记胡志强被查,系山西省委原书记胡富国长子 2019-03-31
  • 荆楚网企业法人营业执照 2019-03-27
  • 江西吉安永丰县:芒种农忙(图) 2019-03-27
  • 智媒云图(Intell Vision):图书馆“书童” 2019-03-24
  • 北京:构筑“三维”立体防护网 保险业对非法集资说“NO” 2019-03-17
  • 800万尾鱼苗放流天津蓟州于桥水库 2019-03-17
  • 推动第三代杂交水稻研究 2019-03-06
  • 奇闻怪事:瑶族怪异风俗习惯之烟袋定情 2019-03-06
  • 大乐透复式7加5 中国竞彩网竞彩 博彩吧 海南飞鱼在线观看 山东体彩快乐扑克3下载 pk10100本金滚雪球30天 福利彩票开奖时间 福建省体彩31选7 湖北快3走势图 重庆幸运农场走-彩票控 排列5杀号定胆 大赢家足球即时比分 qq分分彩软件下载 体彩p3试机号开奖号 昨天号福彩开奖号码是多少 北京赛车开奖