Browsed by
标签:爬虫

scrapy 中文教程(爬cnbeta实例)

scrapy 中文教程(爬cnbeta实例)

crapy 中文的资料挺少的,写文章记录一下,以爬cnbeta新闻为例子, 抓取cnbeta的新闻标题+链接。 1.新建scrapy项目 1 scrapy startproject cnbeta 目录结构: 1 2 3 4 5 6 7 8 9 cnbeta/ ├── cnbeta │   ├── __init__.py │   ├── items.py │   ├── pipelines.py │

Scrapy抓取豆瓣电影

Scrapy抓取豆瓣电影

原文:http://www.ituring.com.cn/article/114408 Scrapy简介 Scrapy是Python开发的一个快速,高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。 下图展示了Scrapy的大致架构,其中包含了主要组件和系统的数据处理流程(绿色箭头表示)。下面会对组件和流程进行了一个简单的解释。 组件 1.Sc

一个爬虫项目记录

一个爬虫项目记录

原文:http://ichuan.net/post/59/一个爬虫项目记录/ 上周自己做了个小项目,爬某个网站上的数据,存入 mysql。 最开始是这么计划的:从一个入口出发(比如分类页面),多线程抓取网页,然后用 lxml 定位 dom,获取想要的部分,入库。 组件 想法是最好利用成熟的组件,这样自己写的代码少,出的问题也少。 线程池:本来公

Python3.4网页抓取之编码异常

Python3.4网页抓取之编码异常

使用Python抓取网页的时候,有时候我们会解析出现异常,这时候,就会导致整个网页解析不成功,究其原因,仅仅是因为编码里某个小小的地方编码出错了,才导致解析失败,那么我们应该如何比较好的避免这种情况出现呢? 看下面的例子: Python代码   import urllib.request,urllib.parse,http.cookiejar cj=http.c

Python 3开发网络爬虫

Python 3开发网络爬虫

由于本学期好多神都选了Cisco网络课, 而我这等弱渣没选, 去蹭了一节发现讲的内容虽然我不懂但是还是无爱. 我想既然都本科就出来工作还是按照自己爱好来点技能吧, 于是我就不去了. 一个人在宿舍没有点计划好的事情做就会很容易虚度, 正好这个学期主打网络与数据库开发, 那就先学学Python开发爬虫吧. 我失散多年的好朋友Ja

python 网站爬虫 下载在线盗墓笔记小说到本地的脚本

python 网站爬虫 下载在线盗墓笔记小说到本地的脚本

原文  http://blog.csdn.net/u013055678/article/details/40075741 最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本 需要 BeautifulSoup 和 requests 两个库 (

用scrapy进行网页抓取

用scrapy进行网页抓取

最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html 要想利用scrapy来抓取网页信息,需要先新建一个工程,scrapy startproject myproject 工程建立好后,会有一个myproject/myproject的子目录,里面有item.py(由于你要抓取的东西的定义),pipeline.py(用

django_dynamic_scraper

django_dynamic_scraper

DDS是一个基于python语言的爬虫,是对django和scrapy的一个整合,现在还处于aphla阶段,相信不久就将发布beta版。 支持interval和crontab 使用django的admin后台,配合chrome的xpathonclick插件,配置规则时非常方便 话不多说了,附上官方链接http://django-dynamic-scraper.readthedocs.org https://github.com/holger

scrapy缺省设置

scrapy缺省设置

BOT_NAME = ‘scrapybot’ CLOSESPIDER_TIMEOUT = 0 CLOSESPIDER_PAGECOUNT = 0 CLOSESPIDER_ITEMCOUNT = 0 CLOSESPIDER_ERRORCOUNT = 0 COMMANDS_MODULE = ” CONCURRENT_ITEMS = 100 CONCURRENT_REQUESTS = 16 CONCURRENT_REQUESTS_PER_DOMAIN = 8 CONCURRENT_REQUESTS_PER_IP = 0 COOKIES_ENABLED = T

用python做网页抓取与解析入门笔记

用python做网页抓取与解析入门笔记

原文:http://chentingpc.me/article/?id=961 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把

scrapy的优点

scrapy的优点

scrapy的优点: 采取可读性更强的xpath代替正则 强大的统计和log系统 同时在不同的url上爬行 支持shell方式,方便独立调试 写middleware,方便写一些统一的过滤器 通过管道的方式存入数据库 下面是基于ubuntu 10.4下的开发: 1 在文件/etc/apt/sources.list中加入以下命令 1 deb http://archive.scrapy.org/ubuntu lucid

使用scrapy进行大规模抓取

使用scrapy进行大规模抓取

原文:http://www.yakergong.net/blog/archives/500 使用scrapy有大概半年了,算是有些经验吧,在这里跟大家讨论一下使用scrapy作为爬虫进行大规模抓取可能遇到的问题。我们抓取的目标是教育网上的网站(目前主要针对.edu.cn和.cas.cn/.cass.cn域名),这半年里抓取了百万以上的url,其实百万url的规模不算大,我们一直