Spider模板

Day92 Crawl Spider 模板的使用免费看

Crawl Spider 模板的使用

10-08侠课岛    新上线 基础入门       

后端/后端/Python 由浅入深入门 10     0     167

总结

1.Spider模板

  • scrapy默认创建的spider模板就是basic模板,创建spider文件的命令是:scrapy genspider dribbble dribbble.com,查看spider模板的命令是:scrapy genspider --list

  • 在项目中明确指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net

2.CrawlSpider类介绍

  • CrawlSpider是Spider的派生类,目的是对全站信息爬取更加简单,爬取那些具有一定规则网站的常用的爬虫, 它基于Spider并有一些独特属性;

3.rules规则列表

  • 语法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None),rules是Rule对象的集合,用于匹配目标网站并排除干扰;

  • link_extractor:是一个LinkExtractor对象,其定义了如何从爬取到的页面提取链接;

  • callback:从link_extractor中每获取到链接得到Responses时,会调用参数所指定的值作为回调函数,该回调 函数接收一个response作为其一个参数;

  • cb_kwargs:用于作为**kwargs参数,传递给callback;

  • follow:是一个布尔值,指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去, 默认是False;

  • process_links:指定spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数 。该方法主要用来过滤;

  • process_request:指定处理函数,根据该Rule提取到的每个Request时,该函数将会被调用,可以对Request进 行处理,该函数必须返回Request或者None;

4.LinkExtractors

  • LinkExtractors 的目的是提取链接,每个LinkExtractor有唯一的公共方法是extract_links(),它接收一个 Response对象,并返回一个scrapy.link.Link对象;

  • Link Extractors要实例化一次,并且 extract_links 方法会根据不同的 response 调用多次提取链接;

主要参数:

  • allow:满足括号中”正则表达式”的值会被提取,如果为空,则全部匹配;

  • deny:与这个正则表达式(或正则表达式列表)不匹配的url一定不提取;

  • allow_domains:会被提取的连接的;

  • deny_domains:一定不会被提取链接的domains;

  • restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接;

本教程图文或视频等内容版权归侠课岛所有,任何机构、媒体、网站或个人未经本网协议授权不得转载、转贴或以其他方式复制发布或发表。

评价

10

本课评分:
  •     非常好
难易程度:
  •     适中的

内容目录



|
教程
粉丝
主页

签到有礼

已签到2天,连续签到7天即可领取7天全站VIP

  • 1
    +2 金币
  • 2
    +3 金币
  • 3
    +5 金币
  • 6
    +7 金币
  • 5
    +6 金币
  • 4
    暖心福利
    自选分类VIP ×1天
  • 7
    惊喜大礼

    自选分类VIP ×3天 +20金币
  • 持续签到 +8 金币

金币可以用来做什么?