原文:http://cn-popeye.iteye.com/blog/1534649
install:
1. sudo apt-get install python-dev
2. sudo apt-get install mysql-server python-mysql
3. sudo apt-get install redis-server python-redis
4. sudo apt-get install subversion
5. sudo apt-get install python-webpy
6. sudo apt-get install nginx uwsgi
使用easy_install时报错如下:
error: Setup script exited with error: command ‘gcc’ failed with exit status 1
解决方法:
$ sudo apt-get install gcc
$ sudo apt-get install python-dev
$ sudo apt-get install libxml2 libxml2-dev
$ sudo apt-get install libxslt1.1 libxslt1-dev
Python 今天发布了三个更新版本,分别是 Python 2.7.4 、Python 3.2.4 和 Python 3.3.1。改进内容和下载地址请点链接进入。
Python (发音:[ 'paiθ(ə)n; (US) 'paiθɔn ]n.蟒蛇,巨蛇 ),是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定
最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html
要想利用scrapy来抓取网页信息,需要先新建一个工程,scrapy startproject myproject
工程建立好后,会有一个myproject/myproject的子目录,里面有item.py(由于你要抓取的东西的定义),pipeline.py(用
DDS是一个基于python语言的爬虫,是对django和scrapy的一个整合,现在还处于aphla阶段,相信不久就将发布beta版。
支持interval和crontab
使用django的admin后台,配合chrome的xpathonclick插件,配置规则时非常方便
话不多说了,附上官方链接http://django-dynamic-scraper.readthedocs.org
https://github.com/holger
BOT_NAME = ‘scrapybot’
CLOSESPIDER_TIMEOUT = 0
CLOSESPIDER_PAGECOUNT = 0
CLOSESPIDER_ITEMCOUNT = 0
CLOSESPIDER_ERRORCOUNT = 0
COMMANDS_MODULE = ”
CONCURRENT_ITEMS = 100
CONCURRENT_REQUESTS = 16
CONCURRENT_REQUESTS_PER_DOMAIN = 8
CONCURRENT_REQUESTS_PER_IP = 0
COOKIES_ENABLED = T
原文:http://chentingpc.me/article/?id=961
事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把
scrapy的优点:
采取可读性更强的xpath代替正则
强大的统计和log系统
同时在不同的url上爬行
支持shell方式,方便独立调试
写middleware,方便写一些统一的过滤器
通过管道的方式存入数据库
下面是基于ubuntu 10.4下的开发:
1 在文件/etc/apt/sources.list中加入以下命令
1
deb http://archive.scrapy.org/ubuntu lucid
原文:http://www.yakergong.net/blog/archives/500
使用scrapy有大概半年了,算是有些经验吧,在这里跟大家讨论一下使用scrapy作为爬虫进行大规模抓取可能遇到的问题。我们抓取的目标是教育网上的网站(目前主要针对.edu.cn和.cas.cn/.cass.cn域名),这半年里抓取了百万以上的url,其实百万url的规模不算大,我们一直
平时写python经常会想获得脚本所在的目录,例如有个文件跟脚本文件放在一个相对的目录位置,那就可以通过脚本文件的目录找到对应的文件,即使以后脚本文件移到其他地方,脚本也基本不需要改动(相对于写死目录的好处)。下面通过一些代码进行一下对比。
这是我写的一段代码在:/root/printfabcd/py/filePath.py
Python代
原文:http://wwwdigger.com/?p=111
关于Scrapy工作过程会在之后添加。
0.相关信息
a)首先要已经完成Scrapy的配置安装(如果没有安装,可以参考Scrapy安装过程);
b)了解XPath的基本用法(可以参考XPath教程);
c)Chrome的审查元素功能也很好用,但是FF的Firebug个人感觉用着更舒服,推荐使用;
d)抓取过程就是发出
最近我发现了这个PYPL——编程语言流行指数。它对各种语言的流行指标进行了二次发掘。作者指出TIOBE指数很可能不能反映出真实情况,归咎于一些编程语言的名称会导致误解。他引入了一些新术语,利用谷歌趋势得出来不同的结论。
通过作者的研究,我们可以得知,在过去的十年里,Python语言获得了最大的增长幅度。从图片上
装memcache(Ubuntu)
apt-get install memcached
安装python-memached
pip install python-memcached
启动memcached
/usr/bin/memcached -d -m 64 -p 12333 -u memcache -l 127.0.0.1
启动参数说明:
-d 选项是启动一个守护进程
-m 是分配给Memcache使用的内存数量,单位是MB,默认64MB
-M return error on memory exhaus
原文:http://www.searchtb.com/2011/01/an-introduction-to-crawler.html
网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在
Here’s a rundown of some of the most common operators used in filter():
equals:
query.filter(User.name == 'ed')
not equals:
query.filter(User.name != 'ed')
LIKE:
query.filter(User.name.like('%ed%'))
IN:
query.filter(User.name.in_(['ed', 'wendy', 'jack']))
# works with query
软件业的特点,就是层出不穷的新东东涌现。Windows早就革了DOS的命,浏览器差不多革了桌面软件的命,云计算准备再革所有软件的命,最后还追上个乔布斯说一切听他的。
动荡的软件界,让人眼花缭乱。这一切的后面,是失落的编程族:好容易才精通的东西,随之变得一钱不值。曾经的人才,如同数码产品般的迅速贬值。乃至好多
原文出处:http://www.amk.ca/python/howto/regex/
原文作者:A.M. Kuchling (amk@amk.ca)
授权许可:创作共用协议
翻译人员:FireHare
校对人员:Leal
适用版本:Python 1.5 及后续版本
摘要
本文是通过Python的 re 模块来使用正则表达式的一个入门教程,和库参考手册的对应章节相比,更为浅显易懂、循序渐进。
本文
Python的web开发框架这么多,实在眼花缭乱,Tornado相比来说还算个新东西,文档也很少,是哪些特性吸引了知乎工程师呢?
孙大同,freshman @ …:
Tornado异步非阻塞的I/O模型的确让人耳目一新,Tornado的优势主要在于对大量Comet长轮询连接的维护上。这也是FriendFeed开发Tornado的原因—–因为FriendFeed需要
index.py:
import tornado.wsgi
class MainHandler(tornado.web.RequestHandler):
def get(self):
self.write("Hello, world! - Tornado\n")
app = tornado.wsgi.WSGIApplication([
(r"/", MainHandler),
])
from bae.core.wsgi import WSGIApplication
application = WSGIApplication(ap
公司项目中需要使用长链接方式的获取后端数据库——主要是Redis的实时数据。
由于项目本身是PHP的初次看到这个项目,首先想到的是Apache + mod_php的方式,配合php的ob_start()方式直接调用,就如同我之前的一篇东西所说的那样。可问题不这么简单:
系统是nginx + php-fpm方式,php-fpm“hold不住”过多的Http请求,而n
最新评论