• 多学科构建“大介入” 中国介入医师年会南京召开 2019-04-18
  • 明星高考奇葩事杨幂总分第一 赵薇丢准考证(组图) 2019-04-12
  • 西北大学新传院与西部网签约 开启校媒合作新模式 2019-04-12
  • 《习近平新闻思想讲义(2018年版)》出版发行 2019-04-07
  • 光明日报副总编辑沈卫星 2019-04-07
  • 5月一二三线城市房价环比都涨了,后续会咋样? 2019-04-06
  • 湖州吴兴:打造智慧健康养老“吴兴模式” 2019-04-06
  • 陕西卫计委党组书记胡志强被查,系山西省委原书记胡富国长子 2019-03-31
  • 荆楚网企业法人营业执照 2019-03-27
  • 江西吉安永丰县:芒种农忙(图) 2019-03-27
  • 智媒云图(Intell Vision):图书馆“书童” 2019-03-24
  • 北京:构筑“三维”立体防护网 保险业对非法集资说“NO” 2019-03-17
  • 800万尾鱼苗放流天津蓟州于桥水库 2019-03-17
  • 推动第三代杂交水稻研究 2019-03-06
  • 奇闻怪事:瑶族怪异风俗习惯之烟袋定情 2019-03-06
  • 冰球32人打架: 冰球打架视频

    北京 切换校区

    全国24小时免费热线

    400-009-1906

    BeautifulSoup的基本用法

    时间:2019-03-11   来源:尚学堂   阅读:61
    ?
    ?
    前言
    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。
    它是一个灵活又方便的网页解析库,处理高效,支持多种解析器。
    利用它就不用编写正则表达式也能方便的实现网页信息的抓取。
    通常人们把 beautifulSoup 叫作“美味的汤,绿色的浓汤”,简称:美丽(味)汤
    它的官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html (中)
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (英)
    安装
    快速安装
    pip install beautifulsoup4 或 easy_install BeautifulSoup4
    解析库
    Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。
    ?
    ?
    基本使用
    View Code

     

    标签选择器获取内容
    View Code

     

    嵌套内容
    View Code

     

    子节点与子孙节点
    View Code

     

    父节点和祖先节点
    View Code

     

    兄弟节点
    View Code

     

    标准选择器
    可根据标签名、属性、内容查找文档
    find_all( name , attrs , recursive , text , **kwargs )

     

    name
    View Code

     

    attrs
    View Code

     

    text
    View Code

     

    find_parents() find_parent()
    find_parents()返回所有祖先节点,find_parent()返回直接父节点。
    find_next_siblings() find_next_sibling()
    find_next_siblings()返回后面所有兄弟节点,find_next_sibling()返回后面第一个兄弟节点。
    find_previous_siblings() find_previous_sibling()
    find_previous_siblings()返回前面所有兄弟节点, find_previous_sibling()返回前面第一个兄弟节点。
    find_all_next() find_next()
    find_all_next()返回节点后所有符合条件的节点, find_next()返回第一个符合条件的节点
    find_all_previous() 和 find_previous()
    find_all_previous()返回节点后所有符合条件的节点, find_previous()返回第一个符合条件的节点
    CSS选择器
    使用十分的简单,通过select()直接传入CSS选择器即可完成选择
    View Code

     

    获取属性
    View Code

     

    获取内容
    View Code

     

    总结
    • 推荐使用lxml解析库,必要时使用html.parser
    • 标签选择筛选功能弱但是速度快建议使用find()、find_all()
    • 查询匹配单个结果或者多个结果如果对CSS选择器熟悉建议使用select()
    • 记住常用的获取属性和文本值的方法

    相关资讯

    • 北京校区
    • 山西校区
    • 郑州校区
    • 武汉校区
    • 四川校区
    • 长沙校区
    • 深圳校区
    • 上海校区
    • 广州校区
    • 保定招生办

    北京海淀区校区(总部):北京市海淀区西三旗街道建材城西路中腾建华商务大厦东侧二层尚学堂
    北京京南校区:北京亦庄经济开发区科创十四街6号院1号楼 赛蒂国际工业园
    咨询电话:400-009-1906 / 010-56233821
    面授课程: JavaEE培训、 大数据就业班培训、 大数据云计算周末班培训、 零基础大数据连读班培训、 大数据云计算高手班培训、 人工智能周末班培训、人工智能+Python全栈培训、 H5+PHP全栈工程师培训

    山西学区地址:山西省晋中市榆次区大学城大学生活广场万科商业A1座702

    郑州学区地址:河南电子商务产业园6号楼4层407
    咨询电话:0371-55177956

    武汉学区地址:湖北省武汉市江夏区江夏大道26号 宏信悦谷创业园4楼
    咨询电话:027-87989193

    四川学区地址:成都市高新区锦晖西一街99号布鲁明顿大厦2栋1003室
    咨询电话:028-65176856 / 13880900114

    网址://www.cssxt.com/
    咨询电话:0731-83072091

    深圳校区地址:深圳市宝安区航城街道航城大道航城创新创业园A4栋210(固戍地铁站C出口)
    咨询电话:0755-23061965 / 18898413781

    上海尚学堂松江校区地址:上海市松江区荣乐东路2369弄45号绿地伯顿大厦2层
    咨询电话:021-67690939

    广州校区地址:广州市天河区元岗横路31号慧通产业广场B区B1栋6楼尚学堂(地铁3号线或6号线到“天河客运站”D出口,右拐直走约800米)
    咨询电话:020-2989 6995

    保定招生办公室

    地址:河北省保定市竞秀区朝阳南大街777号鸿悦国际1101室

    电话:15132423123

    Copyright 2006-2019 北京尚学堂科技有限公司  京ICP备13018289号-19  京公网安备11010802015183  
    媒体联系:18610174079 闫老师  

    Java基础班,免费试学三周

  • 多学科构建“大介入” 中国介入医师年会南京召开 2019-04-18
  • 明星高考奇葩事杨幂总分第一 赵薇丢准考证(组图) 2019-04-12
  • 西北大学新传院与西部网签约 开启校媒合作新模式 2019-04-12
  • 《习近平新闻思想讲义(2018年版)》出版发行 2019-04-07
  • 光明日报副总编辑沈卫星 2019-04-07
  • 5月一二三线城市房价环比都涨了,后续会咋样? 2019-04-06
  • 湖州吴兴:打造智慧健康养老“吴兴模式” 2019-04-06
  • 陕西卫计委党组书记胡志强被查,系山西省委原书记胡富国长子 2019-03-31
  • 荆楚网企业法人营业执照 2019-03-27
  • 江西吉安永丰县:芒种农忙(图) 2019-03-27
  • 智媒云图(Intell Vision):图书馆“书童” 2019-03-24
  • 北京:构筑“三维”立体防护网 保险业对非法集资说“NO” 2019-03-17
  • 800万尾鱼苗放流天津蓟州于桥水库 2019-03-17
  • 推动第三代杂交水稻研究 2019-03-06
  • 奇闻怪事:瑶族怪异风俗习惯之烟袋定情 2019-03-06
  • 查福彩3d走势图带连线 排列五开奖结果查询 盛兴北京赛车开奖结果 彩票新闻 中国福彩网首页 福利彩票销售量 河南泳坛夺金走势图近120 11选5爱彩乐北京 彩客网双色球专家预测 安徽时时彩官网平台 北京pk10牛牛是 手机彩票 新濠娱乐城 快乐12手机版 竞彩篮球大小分中奖计算表 重庆幸运农场输赢