scrapy 中文教程(爬cnbeta实例)

scrapy 中文教程(爬cnbeta实例)

crapy 中文的资料挺少的,写文章记录一下,以爬cnbeta新闻为例子,
抓取cnbeta的新闻标题+链接。

1.新建scrapy项目

目录结构:

2.定义数据结构
编辑cnbeta/items.py

定义了两个字段,分别存储标题和链接

3.编写spider(爬虫)
编辑cnbeta/spiders/cb.py

rules指定了含有/articles/.*\.htm的链接都会被匹配.

4.运行爬虫

将结果输出到result.json -t json指定文件格式为json

5.结果

源码下载:
cnbeta_spider.tar

Comments are closed.