预处理函数

Day91 引入ItemLoader和Item的预处理函数

引入ItemLoader、修改spider,让itemloader完成元素定位和元素解析、修改item数据模型

10-08侠课岛    基础入门       

后端/后端/Python 由浅入深入门 9     0     263

总结

1.引入ItemLoader

  • 在项目的item.py文件中创建一个自定义的loader类,然后让这个自定义类继承ItemLoader类;

  • ItemLoader类的语法:scrapy.loader.ItemLoader([ item,selector,response,] ** kwargs ),它可以接收一个 Item 实例来指定要加载的 Item,然后指定 r来确定要解析的内容esponse 或者 selector; ItemLoader 实例还提供很多方法,如提供add_css()方法和add_xpath()方法来通过 css 和xpath 解析赋值,或使用add_value()方法来单独进行赋值等。

  • 更多其他的用法大家可以查看:https://doc.scrapy.org/en/latest/topics/loaders.html

2.修改spider,让itemloader完成素定位和元素解析

  • 首先重写spider中的parse_analyse方法,导入自定义的loader类,然后需要实例化这个loader类,将参数item和response传递到loader类中。 然后可以使用add_css()、add_xpath()、add_value()方法来提取和收集数据保存到loader类实例化对象中; 最后当所有数据被收集起来之后,调用ItemLoader.load_item()方法对结果进行解析并保存到一个item中,然后返回这个item;

3.修改item数据模型

  • 修改item数据模型,需要导入from scrapy.loader.processors import MapCompose,可以在scrapy.Field中加入处理函数。MapCompose是一种处理器,由给定功能的组合构成,类似于Compose处理器,与此处理器的不同之处在于内部结果在函数之间传递的方式;

  • Scrapy还给我们提供了一个scrapy.loader.processors.TakeFirst()方法,用于返回第一个非空值(相当于extract_first()方法),常用于单值字段的输出处器,无参数;

本教程图文或视频等内容版权归侠课岛所有,任何机构、媒体、网站或个人未经本网协议授权不得转载、转贴或以其他方式复制发布或发表。

评价

9

本课评分:
  •     非常好
难易程度:
  •     适中的

内容目录



|
教程
粉丝
主页

签到有礼

已签到2天,连续签到7天即可领取7天全站VIP

  • 1
    +2 金币
  • 2
    +3 金币
  • 3
    +5 金币
  • 6
    +7 金币
  • 5
    +6 金币
  • 4
    暖心福利
    自选分类VIP ×1天
  • 7
    惊喜大礼

    自选分类VIP ×3天 +20金币
  • 持续签到 +8 金币

金币可以用来做什么?