## çˆ¬è™«æ¡†æž¶Scrapyç®€ä»‹

å½“ä½ å†™äº†å¾ˆå¤šä¸ªçˆ¬è™«ç¨‹åºä¹‹åŽï¼Œä½ ä¼šå‘çŽ°æ¯æ¬¡å†™çˆ¬è™«ç¨‹åºæ—¶ï¼Œéƒ½éœ€è¦å°†é¡µé¢èŽ·å–ã€é¡µé¢è§£æžã€çˆ¬è™«è°ƒåº¦ã€å¼‚å¸¸å¤„ç†ã€åçˆ¬åº”å¯¹è¿™äº›ä»£ç ä»Žå¤´è‡³å°¾å®žçŽ°ä¸€éï¼Œè¿™é‡Œé¢æœ‰å¾ˆå¤šå·¥ä½œå…¶å®žéƒ½æ˜¯ç®€å•ä¹å‘³çš„é‡å¤åŠ³åŠ¨ã€‚é‚£ä¹ˆï¼Œæœ‰æ²¡æœ‰ä»€ä¹ˆåŠžæ³•å¯ä»¥æå‡æˆ‘ä»¬ç¼–å†™çˆ¬è™«ä»£ç çš„æ•ˆçŽ‡å‘¢ï¼Ÿç”æ¡ˆæ˜¯è‚¯å®šçš„ï¼Œé‚£å°±æ˜¯åˆ©ç”¨çˆ¬è™«æ¡†æž¶ï¼Œè€Œåœ¨æ‰€æœ‰çš„çˆ¬è™«æ¡†æž¶ä¸ï¼ŒScrapy åº”è¯¥æ˜¯æœ€æµè¡Œã€æœ€å¼ºå¤§çš„æ¡†æž¶ã€‚

### Scrapy æ¦‚è¿°

Scrapy æ˜¯åŸºäºŽ Python çš„ä¸€ä¸ªéžå¸¸æµè¡Œçš„ç½‘ç»œçˆ¬è™«æ¡†æž¶ï¼Œå¯ä»¥ç”¨æ¥æŠ“å– Web ç«™ç‚¹å¹¶ä»Žé¡µé¢ä¸æå–ç»“æž„åŒ–çš„æ•°æ®ã€‚ä¸‹å›¾å±•ç¤ºäº† Scrapy çš„åŸºæœ¬æž¶æž„ï¼Œå…¶ä¸åŒ…å«äº†ä¸»è¦ç»„ä»¶å’Œç³»ç»Ÿçš„æ•°æ®å¤„ç†æµç¨‹ï¼ˆå›¾ä¸å¸¦æ•°å—çš„çº¢è‰²ç®å¤´ï¼‰ã€‚

<img src="res/20210824003638.png" style="zoom:50%;">

#### Scrapyçš„ç»„ä»¶

æˆ‘ä»¬å…ˆæ¥è¯´è¯´ Scrapy ä¸çš„ç»„ä»¶ã€‚

1. Scrapy å¼•æ“Žï¼ˆEngineï¼‰ï¼šç”¨æ¥æŽ§åˆ¶æ•´ä¸ªç³»ç»Ÿçš„æ•°æ®å¤„ç†æµç¨‹ã€‚
2. è°ƒåº¦å™¨ï¼ˆSchedulerï¼‰ï¼šè°ƒåº¦å™¨ä»Žå¼•æ“ŽæŽ¥å—è¯·æ±‚å¹¶æŽ’åºåˆ—å…¥é˜Ÿåˆ—ï¼Œå¹¶åœ¨å¼•æ“Žå‘å‡ºè¯·æ±‚åŽè¿”è¿˜ç»™å®ƒä»¬ã€‚
3. ä¸‹è½½å™¨ï¼ˆDownloaderï¼‰ï¼šä¸‹è½½å™¨çš„ä¸»è¦èŒè´£æ˜¯æŠ“å–ç½‘é¡µå¹¶å°†ç½‘é¡µå†…å®¹è¿”è¿˜ç»™èœ˜è››ï¼ˆSpidersï¼‰ã€‚
4. èœ˜è››ç¨‹åºï¼ˆSpidersï¼‰ï¼šèœ˜è››æ˜¯ç”¨æˆ·è‡ªå®šä¹‰çš„ç”¨æ¥è§£æžç½‘é¡µå¹¶æŠ“å–ç‰¹å®šURLçš„ç±»ï¼Œæ¯ä¸ªèœ˜è››éƒ½èƒ½å¤„ç†ä¸€ä¸ªåŸŸåæˆ–ä¸€ç»„åŸŸåï¼Œç®€å•çš„è¯´å°±æ˜¯ç”¨æ¥å®šä¹‰ç‰¹å®šç½‘ç«™çš„æŠ“å–å’Œè§£æžè§„åˆ™çš„æ¨¡å—ã€‚
5. æ•°æ®ç®¡é“ï¼ˆItem Pipelineï¼‰ï¼šç®¡é“çš„ä¸»è¦è´£ä»»æ˜¯è´Ÿè´£å¤„ç†æœ‰èœ˜è››ä»Žç½‘é¡µä¸æŠ½å–çš„æ•°æ®æ¡ç›®ï¼Œå®ƒçš„ä¸»è¦ä»»åŠ¡æ˜¯æ¸…ç†ã€éªŒè¯å’Œå˜å‚¨æ•°æ®ã€‚å½“é¡µé¢è¢«èœ˜è››è§£æžåŽï¼Œå°†è¢«å‘é€åˆ°æ•°æ®ç®¡é“ï¼Œå¹¶ç»è¿‡å‡ ä¸ªç‰¹å®šçš„æ¬¡åºå¤„ç†æ•°æ®ã€‚æ¯ä¸ªæ•°æ®ç®¡é“ç»„ä»¶éƒ½æ˜¯ä¸€ä¸ª Python ç±»ï¼Œå®ƒä»¬èŽ·å–äº†æ•°æ®æ¡ç›®å¹¶æ‰§è¡Œå¯¹æ•°æ®æ¡ç›®è¿›è¡Œå¤„ç†çš„æ–¹æ³•ï¼ŒåŒæ—¶è¿˜éœ€è¦ç¡®å®šæ˜¯å¦éœ€è¦åœ¨æ•°æ®ç®¡é“ä¸ç»§ç»æ‰§è¡Œä¸‹ä¸€æ¥æˆ–æ˜¯ç›´æŽ¥ä¸¢å¼ƒæŽ‰ä¸å¤„ç†ã€‚æ•°æ®ç®¡é“é€šå¸¸æ‰§è¡Œçš„ä»»åŠ¡æœ‰ï¼šæ¸…ç† HTML æ•°æ®ã€éªŒè¯è§£æžåˆ°çš„æ•°æ®ï¼ˆæ£€æŸ¥æ¡ç›®æ˜¯å¦åŒ…å«å¿…è¦çš„å—æ®µï¼‰ã€æ£€æŸ¥æ˜¯ä¸æ˜¯é‡å¤æ•°æ®ï¼ˆå¦‚æžœé‡å¤å°±ä¸¢å¼ƒï¼‰ã€å°†è§£æžåˆ°çš„æ•°æ®å˜å‚¨åˆ°æ•°æ®åº“ï¼ˆå…³ç³»åž‹æ•°æ®åº“æˆ– NoSQL æ•°æ®åº“ï¼‰ä¸ã€‚
6. ä¸é—´ä»¶ï¼ˆMiddlewaresï¼‰ï¼šä¸é—´ä»¶æ˜¯ä»‹äºŽå¼•æ“Žå’Œå…¶ä»–ç»„ä»¶ä¹‹é—´çš„ä¸€ä¸ªé’©åæ¡†æž¶ï¼Œä¸»è¦æ˜¯ä¸ºäº†æä¾›è‡ªå®šä¹‰çš„ä»£ç æ¥æ‹“å±• Scrapy çš„åŠŸèƒ½ï¼ŒåŒ…æ‹¬ä¸‹è½½å™¨ä¸é—´ä»¶å’Œèœ˜è››ä¸é—´ä»¶ã€‚

#### æ•°æ®å¤„ç†æµç¨‹

Scrapy çš„æ•´ä¸ªæ•°æ®å¤„ç†æµç¨‹ç”±å¼•æ“Žè¿›è¡ŒæŽ§åˆ¶ï¼Œé€šå¸¸çš„è¿è½¬æµç¨‹åŒ…æ‹¬ä»¥ä¸‹çš„æ¥éª¤ï¼š

1. å¼•æ“Žè¯¢é—®èœ˜è››éœ€è¦å¤„ç†å“ªä¸ªç½‘ç«™ï¼Œå¹¶è®©èœ˜è››å°†ç¬¬ä¸€ä¸ªéœ€è¦å¤„ç†çš„ URL äº¤ç»™å®ƒã€‚

2. å¼•æ“Žè®©è°ƒåº¦å™¨å°†éœ€è¦å¤„ç†çš„ URL æ”¾åœ¨é˜Ÿåˆ—ä¸ã€‚

3. å¼•æ“Žä»Žè°ƒåº¦é‚£èŽ·å–æŽ¥ä¸‹æ¥è¿›è¡Œçˆ¬å–çš„é¡µé¢ã€‚

4. è°ƒåº¦å°†ä¸‹ä¸€ä¸ªçˆ¬å–çš„ URL è¿”å›žç»™å¼•æ“Žï¼Œå¼•æ“Žå°†å®ƒé€šè¿‡ä¸‹è½½ä¸é—´ä»¶å‘é€åˆ°ä¸‹è½½å™¨ã€‚

5. å½“ç½‘é¡µè¢«ä¸‹è½½å™¨ä¸‹è½½å®Œæˆä»¥åŽï¼Œå“åº”å†…å®¹é€šè¿‡ä¸‹è½½ä¸é—´ä»¶è¢«å‘é€åˆ°å¼•æ“Žï¼›å¦‚æžœä¸‹è½½å¤±è´¥äº†ï¼Œå¼•æ“Žä¼šé€šçŸ¥è°ƒåº¦å™¨è®°å½•è¿™ä¸ª URLï¼Œå¾…ä¼šå†é‡æ–°ä¸‹è½½ã€‚

6. å¼•æ“Žæ”¶åˆ°ä¸‹è½½å™¨çš„å“åº”å¹¶å°†å®ƒé€šè¿‡èœ˜è››ä¸é—´ä»¶å‘é€åˆ°èœ˜è››è¿›è¡Œå¤„ç†ã€‚

7. èœ˜è››å¤„ç†å“åº”å¹¶è¿”å›žçˆ¬å–åˆ°çš„æ•°æ®æ¡ç›®ï¼Œæ¤å¤–è¿˜è¦å°†éœ€è¦è·Ÿè¿›çš„æ–°çš„ URL å‘é€ç»™å¼•æ“Žã€‚

8. å¼•æ“Žå°†æŠ“å–åˆ°çš„æ•°æ®æ¡ç›®é€å…¥æ•°æ®ç®¡é“ï¼ŒæŠŠæ–°çš„ URL å‘é€ç»™è°ƒåº¦å™¨æ”¾å…¥é˜Ÿåˆ—ä¸ã€‚

ä¸Šè¿°æ“ä½œä¸çš„ç¬¬2æ¥åˆ°ç¬¬8æ¥ä¼šä¸€ç›´é‡å¤ç›´åˆ°è°ƒåº¦å™¨ä¸æ²¡æœ‰éœ€è¦è¯·æ±‚çš„ URLï¼Œçˆ¬è™«å°±åœæ¢å·¥ä½œã€‚

### å®‰è£…å’Œä½¿ç”¨Scrapy

å¯ä»¥ä½¿ç”¨ Python çš„åŒ…ç®¡ç†å·¥å…·`pip`æ¥å®‰è£… Scrapyã€‚

```Shell
pip install scrapy
```

åœ¨å‘½ä»¤è¡Œä¸ä½¿ç”¨`scrapy`å‘½ä»¤åˆ›å»ºåä¸º`demo`çš„é¡¹ç›®ã€‚

```Bash
scrapy startproject demo
```

é¡¹ç›®çš„ç›®å½•ç»“æž„å¦‚ä¸‹å›¾æ‰€ç¤ºã€‚

```Shell
demo
|____ demo
|________ spiders
|____________ __init__.py
|________ __init__.py
|________ items.py
|________ middlewares.py
|________ pipelines.py
|________ settings.py
|____ scrapy.cfg
```

åˆ‡æ¢åˆ°`demo` ç›®å½•ï¼Œç”¨ä¸‹é¢çš„å‘½ä»¤åˆ›å»ºåä¸º`douban`çš„èœ˜è››ç¨‹åºã€‚

```Bash
scrapy genspider douban movie.douban.com
```

#### ä¸€ä¸ªç®€å•çš„ä¾‹å

æŽ¥ä¸‹æ¥ï¼Œæˆ‘ä»¬å®žçŽ°ä¸€ä¸ªçˆ¬å–è±†ç“£ç”µå½± Top250 ç”µå½±æ ‡é¢˜ã€è¯„åˆ†å’Œé‡‘å¥çš„çˆ¬è™«ã€‚

1. åœ¨`items.py`çš„`Item`ç±»ä¸å®šä¹‰å—æ®µï¼Œè¿™äº›å—æ®µç”¨æ¥ä¿å˜æ•°æ®ï¼Œæ–¹ä¾¿åŽç»çš„æ“ä½œã€‚

   ```Python
   import scrapy
   
   
   class DoubanItem(scrapy.Item):
       title = scrapy.Field()
       score = scrapy.Field()
       motto = scrapy.Field()
   ```
   
2. ä¿®æ”¹`spiders`æ–‡ä»¶å¤¹ä¸åä¸º`douban.py` çš„æ–‡ä»¶ï¼Œå®ƒæ˜¯èœ˜è››ç¨‹åºçš„æ ¸å¿ƒï¼Œéœ€è¦æˆ‘ä»¬æ·»åŠ è§£æžé¡µé¢çš„ä»£ç ã€‚åœ¨è¿™é‡Œï¼Œæˆ‘ä»¬å¯ä»¥é€šè¿‡å¯¹`Response`å¯¹è±¡çš„è§£æžï¼ŒèŽ·å–ç”µå½±çš„ä¿¡æ¯ï¼Œä»£ç å¦‚ä¸‹æ‰€ç¤ºã€‚

   ```Python
   import scrapy
   from scrapy import Selector, Request
   from scrapy.http import HtmlResponse
   
   from demo.items import MovieItem
   
   
   class DoubanSpider(scrapy.Spider):
       name = 'douban'
       allowed_domains = ['movie.douban.com']
       start_urls = ['https://movie.douban.com/top250?start=0&filter=']
   
       def parse(self, response: HtmlResponse):
           sel = Selector(response)
           movie_items = sel.css('#content > div > div.article > ol > li')
           for movie_sel in movie_items:
               item = MovieItem()
               item['title'] = movie_sel.css('.title::text').extract_first()
               item['score'] = movie_sel.css('.rating_num::text').extract_first()
               item['motto'] = movie_sel.css('.inq::text').extract_first()
               yield item
   ```
   é€šè¿‡ä¸Šé¢çš„ä»£ç ä¸éš¾çœ‹å‡ºï¼Œæˆ‘ä»¬å¯ä»¥ä½¿ç”¨ CSS é€‰æ‹©å™¨è¿›è¡Œé¡µé¢è§£æžã€‚å½“ç„¶ï¼Œå¦‚æžœä½ æ„¿æ„ä¹Ÿå¯ä»¥ä½¿ç”¨ XPath æˆ–æ£åˆ™è¡¨è¾¾å¼è¿›è¡Œé¡µé¢è§£æžï¼Œå¯¹åº”çš„æ–¹æ³•åˆ†åˆ«æ˜¯`xpath`å’Œ`re`ã€‚

   å¦‚æžœè¿˜è¦ç”ŸæˆåŽç»çˆ¬å–çš„è¯·æ±‚ï¼Œæˆ‘ä»¬å¯ä»¥ç”¨`yield`äº§å‡º`Request`å¯¹è±¡ã€‚`Request`å¯¹è±¡æœ‰ä¸¤ä¸ªéžå¸¸é‡è¦çš„å±žæ€§ï¼Œä¸€ä¸ªæ˜¯`url`ï¼Œå®ƒä»£è¡¨äº†è¦è¯·æ±‚çš„åœ°å€ï¼›ä¸€ä¸ªæ˜¯`callback`ï¼Œå®ƒä»£è¡¨äº†èŽ·å¾—å“åº”ä¹‹åŽè¦æ‰§è¡Œçš„å›žè°ƒå‡½æ•°ã€‚æˆ‘ä»¬å¯ä»¥å°†ä¸Šé¢çš„ä»£ç ç¨ä½œä¿®æ”¹ã€‚

   ```Python
   import scrapy
   from scrapy import Selector, Request
   from scrapy.http import HtmlResponse
   
   from demo.items import MovieItem
   
   
   class DoubanSpider(scrapy.Spider):
       name = 'douban'
       allowed_domains = ['movie.douban.com']
       start_urls = ['https://movie.douban.com/top250?start=0&filter=']
   
       def parse(self, response: HtmlResponse):
           sel = Selector(response)
           movie_items = sel.css('#content > div > div.article > ol > li')
           for movie_sel in movie_items:
               item = MovieItem()
               item['title'] = movie_sel.css('.title::text').extract_first()
               item['score'] = movie_sel.css('.rating_num::text').extract_first()
               item['motto'] = movie_sel.css('.inq::text').extract_first()
               yield item
   
           hrefs = sel.css('#content > div > div.article > div.paginator > a::attr("href")')
           for href in hrefs:
               full_url = response.urljoin(href.extract())
               yield Request(url=full_url)
   ```

   åˆ°è¿™é‡Œï¼Œæˆ‘ä»¬å·²ç»å¯ä»¥é€šè¿‡ä¸‹é¢çš„å‘½ä»¤è®©çˆ¬è™«è¿è½¬èµ·æ¥ã€‚

   ```Shell
   scrapy crawl movie
   ```

   å¯ä»¥åœ¨æŽ§åˆ¶å°çœ‹åˆ°çˆ¬å–åˆ°çš„æ•°æ®ï¼Œå¦‚æžœæƒ³å°†è¿™äº›æ•°æ®ä¿å˜åˆ°æ–‡ä»¶ä¸ï¼Œå¯ä»¥é€šè¿‡`-o`å‚æ•°æ¥æŒ‡å®šæ–‡ä»¶åï¼ŒScrapy æ”¯æŒæˆ‘ä»¬å°†çˆ¬å–åˆ°çš„æ•°æ®å¯¼å‡ºæˆ JSONã€CSVã€XML ç‰æ ¼å¼ã€‚

   ```Shell
   scrapy crawl moive -o result.json
   ```

   ä¸çŸ¥å¤§å®¶æ˜¯å¦æ³¨æ„åˆ°ï¼Œé€šè¿‡è¿è¡Œçˆ¬è™«èŽ·å¾—çš„ JSON æ–‡ä»¶ä¸æœ‰`275`æ¡æ•°æ®ï¼Œé‚£æ˜¯å› ä¸ºé¦–é¡µè¢«é‡å¤çˆ¬å–äº†ã€‚è¦è§£å†³è¿™ä¸ªé—®é¢˜ï¼Œå¯ä»¥å¯¹ä¸Šé¢çš„ä»£ç ç¨ä½œè°ƒæ•´ï¼Œä¸åœ¨`parse`æ–¹æ³•ä¸è§£æžèŽ·å–æ–°é¡µé¢çš„ URLï¼Œè€Œæ˜¯é€šè¿‡`start_requests`æ–¹æ³•æå‰å‡†å¤‡å¥½å¾…çˆ¬å–é¡µé¢çš„ URLï¼Œè°ƒæ•´åŽçš„ä»£ç å¦‚ä¸‹æ‰€ç¤ºã€‚

   ```Python
   import scrapy
   from scrapy import Selector, Request
   from scrapy.http import HtmlResponse
   
   from demo.items import MovieItem
   
   
   class DoubanSpider(scrapy.Spider):
       name = 'douban'
       allowed_domains = ['movie.douban.com']
   
       def start_requests(self):
           for page in range(10):
               yield Request(url=f'https://movie.douban.com/top250?start={page * 25}')
   
       def parse(self, response: HtmlResponse):
           sel = Selector(response)
           movie_items = sel.css('#content > div > div.article > ol > li')
           for movie_sel in movie_items:
               item = MovieItem()
               item['title'] = movie_sel.css('.title::text').extract_first()
               item['score'] = movie_sel.css('.rating_num::text').extract_first()
               item['motto'] = movie_sel.css('.inq::text').extract_first()
               yield item
   ```

3. å¦‚æžœå¸Œæœ›å®Œæˆçˆ¬è™«æ•°æ®çš„æŒä¹…åŒ–ï¼Œå¯ä»¥åœ¨æ•°æ®ç®¡é“ä¸å¤„ç†èœ˜è››ç¨‹åºäº§ç”Ÿçš„`Item`å¯¹è±¡ã€‚ä¾‹å¦‚ï¼Œæˆ‘ä»¬å¯ä»¥é€šè¿‡å‰é¢è®²åˆ°çš„`openpyxl`æ“ä½œ Excel æ–‡ä»¶ï¼Œå°†æ•°æ®å†™å…¥ Excel æ–‡ä»¶ä¸ï¼Œä»£ç å¦‚ä¸‹æ‰€ç¤ºã€‚

   ```Python
   import openpyxl
   
   from demo.items import MovieItem
   
   
   class MovieItemPipeline:
   
       def __init__(self):
           self.wb = openpyxl.Workbook()
           self.sheet = self.wb.active
           self.sheet.title = 'Top250'
           self.sheet.append(('åç§°', 'è¯„åˆ†', 'åè¨€'))
   
       def process_item(self, item: MovieItem, spider):
           self.sheet.append((item['title'], item['score'], item['motto']))
           return item
   
       def close_spider(self, spider):
           self.wb.save('è±†ç“£ç”µå½±æ•°æ®.xlsx')
   ```

   ä¸Šé¢çš„`process_item`å’Œ`close_spider`éƒ½æ˜¯å›žè°ƒæ–¹æ³•ï¼ˆé’©åå‡½æ•°ï¼‰ï¼Œ ç®€å•çš„è¯´å°±æ˜¯ Scrapy æ¡†æž¶ä¼šè‡ªåŠ¨åŽ»è°ƒç”¨çš„æ–¹æ³•ã€‚å½“èœ˜è››ç¨‹åºäº§ç”Ÿä¸€ä¸ª`Item`å¯¹è±¡äº¤ç»™å¼•æ“Žæ—¶ï¼Œå¼•æ“Žä¼šå°†è¯¥`Item`å¯¹è±¡äº¤ç»™æ•°æ®ç®¡é“ï¼Œè¿™æ—¶æˆ‘ä»¬é…ç½®å¥½çš„æ•°æ®ç®¡é“çš„`parse_item`æ–¹æ³•å°±ä¼šè¢«æ‰§è¡Œï¼Œæ‰€ä»¥æˆ‘ä»¬å¯ä»¥åœ¨è¯¥æ–¹æ³•ä¸èŽ·å–æ•°æ®å¹¶å®Œæˆæ•°æ®çš„æŒä¹…åŒ–æ“ä½œã€‚å¦ä¸€ä¸ªæ–¹æ³•`close_spider`æ˜¯åœ¨çˆ¬è™«ç»“æŸè¿è¡Œå‰ä¼šè‡ªåŠ¨æ‰§è¡Œçš„æ–¹æ³•ï¼Œåœ¨ä¸Šé¢çš„ä»£ç ä¸ï¼Œæˆ‘ä»¬åœ¨è¿™ä¸ªåœ°æ–¹è¿›è¡Œäº†ä¿å˜ Excel æ–‡ä»¶çš„æ“ä½œï¼Œç›¸ä¿¡è¿™æ®µä»£ç å¤§å®¶æ˜¯å¾ˆå®¹æ˜“è¯»æ‡‚çš„ã€‚

   æ€»è€Œè¨€ä¹‹ï¼Œæ•°æ®ç®¡é“å¯ä»¥å¸®åŠ©æˆ‘ä»¬å®Œæˆä»¥ä¸‹æ“ä½œï¼š

   - æ¸…ç† HTML æ•°æ®ï¼ŒéªŒè¯çˆ¬å–çš„æ•°æ®ã€‚
   - ä¸¢å¼ƒé‡å¤çš„ä¸å¿…è¦çš„å†…å®¹ã€‚
   - å°†çˆ¬å–çš„ç»“æžœè¿›è¡ŒæŒä¹…åŒ–æ“ä½œã€‚

4. ä¿®æ”¹`settings.py`æ–‡ä»¶å¯¹é¡¹ç›®è¿›è¡Œé…ç½®ï¼Œä¸»è¦éœ€è¦ä¿®æ”¹ä»¥ä¸‹å‡ ä¸ªé…ç½®ã€‚

   ```Python
   # ç”¨æˆ·æµè§ˆå™¨
   USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
   
   # å¹¶å‘è¯·æ±‚æ•°é‡ 
   CONCURRENT_REQUESTS = 4
   
   # ä¸‹è½½å»¶è¿Ÿ
   DOWNLOAD_DELAY = 3
   # éšæœºåŒ–ä¸‹è½½å»¶è¿Ÿ
   RANDOMIZE_DOWNLOAD_DELAY = True
   
   # æ˜¯å¦éµå®ˆçˆ¬è™«åè®®
   ROBOTSTXT_OBEY = True
   
   # é…ç½®æ•°æ®ç®¡é“
   ITEM_PIPELINES = {
      'demo.pipelines.MovieItemPipeline': 300,
   }
   ```

   > **è¯´æ˜Ž**ï¼šä¸Šé¢é…ç½®æ–‡ä»¶ä¸çš„`ITEM_PIPELINES`é€‰é¡¹æ˜¯ä¸€ä¸ªå—å…¸ï¼Œå¯ä»¥é…ç½®å¤šä¸ªå¤„ç†æ•°æ®çš„ç®¡é“ï¼ŒåŽé¢çš„æ•°å—ä»£è¡¨äº†æ‰§è¡Œçš„ä¼˜å…ˆçº§ï¼Œæ•°å—å°çš„å…ˆæ‰§è¡Œã€‚