scrapy是python语言开发的爬虫框架,非常有名。想用这个做爬虫工具。这里记录一下使用方法和常用命令。
安装
pip3 install Scrapy
建项目
scrapy startproject news
创建爬虫
cd news
scrapy genspider tianya bbs.tianya.cn
运行爬虫
scrapy crawl tianya
单独运行爬虫文件
scrapy runspider tianya.py
调试scrapy
scrapy shell或者加上请求的url
scrapy shell http://pgres.cn
进入控制台后,可以使用以下函数
fetch:可以请求url或者request对象。请求成功后,会修改当前作用域的request和response对象。
shelp:打印出帮助信息
spider:相应的spider对象
settings:获取项目配置信息
设置http缓存,下次相同url不再请求url
修改settings.py。