Intro to Scrapy, CrawlerSpider

前言 以前自己寫爬蟲,由於 scale 都很小,所以也沒考慮要用 framework,都很單純的使用 requests + BeautifulSoup 來完成。這次突然興起想把唐詩宋詞都爬下來,就拿來練手練手。至於為什麼要爬唐詩宋詞?那又是另一個故事了... 1. 環境配置 為了不讓本身的環境紊亂,我都習慣先開一個 virtualenv ,並把需求寫在 requirements.txt 裡面,一來比較清楚明瞭,二來也可以指定版本號。 mkvirtualenv crawler # 產生環境 workon crawler # 切換到該環境 deactive crawler # 跳出該環境 以上是大致上會用到的指令,至於如何在你的作業系統上安裝 virtualenv這個部分就不贅述了。 再來就是比較主要的部份,安裝這個範例要使用的package。 pip install Scrapy peewee peewee 可以選擇裝或不裝,後面範例是用 sqlite 來操作的。 2.…