存档

‘Python’ 分类的存档

ubuntu+uwsgi+nginx+web.py安装配置记录

2013年4月8日 没有评论 阅读229 次   

原文:http://cn-popeye.iteye.com/blog/1534649 install: 1. sudo apt-get install python-dev 2. sudo apt-get install mysql-server python-mysql 3. sudo apt-get install redis-server python-redis 4. sudo apt-get install subversion 5. sudo apt-get install python-webpy 6. sudo apt-get install nginx uwsgi

分类: Python 标签:

使用easy_install时报错如下: error: Setup script exited with error: command ‘gcc’ failed with exit status 1

2013年4月7日 没有评论 阅读448 次   

使用easy_install时报错如下: error: Setup script exited with error: command ‘gcc’ failed with exit status 1 解决方法: $ sudo apt-get install gcc $ sudo apt-get install python-dev $ sudo apt-get install libxml2 libxml2-dev $ sudo apt-get install libxslt1.1 libxslt1-dev

分类: Python 标签:

Python 2.7.4、3.2.4 和 3.3.1 发布

2013年4月7日 没有评论 阅读198 次   

Python 今天发布了三个更新版本,分别是 Python 2.7.4 、Python 3.2.4 和 Python 3.3.1。改进内容和下载地址请点链接进入。 Python (发音:[ 'paiθ(ə)n; (US) 'paiθɔn ]n.蟒蛇,巨蛇 ),是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定

分类: Python 标签:

用scrapy进行网页抓取

2013年4月6日 没有评论 阅读292 次   

最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html 要想利用scrapy来抓取网页信息,需要先新建一个工程,scrapy startproject myproject 工程建立好后,会有一个myproject/myproject的子目录,里面有item.py(由于你要抓取的东西的定义),pipeline.py(用

分类: Python 标签: ,

django_dynamic_scraper

2013年4月6日 没有评论 阅读186 次   

DDS是一个基于python语言的爬虫,是对django和scrapy的一个整合,现在还处于aphla阶段,相信不久就将发布beta版。 支持interval和crontab 使用django的admin后台,配合chrome的xpathonclick插件,配置规则时非常方便 话不多说了,附上官方链接http://django-dynamic-scraper.readthedocs.org https://github.com/holger

分类: Django, Python 标签: ,

scrapy缺省设置

2013年4月6日 没有评论 阅读262 次   

BOT_NAME = ‘scrapybot’ CLOSESPIDER_TIMEOUT = 0 CLOSESPIDER_PAGECOUNT = 0 CLOSESPIDER_ITEMCOUNT = 0 CLOSESPIDER_ERRORCOUNT = 0 COMMANDS_MODULE = ” CONCURRENT_ITEMS = 100 CONCURRENT_REQUESTS = 16 CONCURRENT_REQUESTS_PER_DOMAIN = 8 CONCURRENT_REQUESTS_PER_IP = 0 COOKIES_ENABLED = T

分类: Python 标签: ,

用python做网页抓取与解析入门笔记

2013年4月5日 没有评论 阅读182 次   

原文:http://chentingpc.me/article/?id=961 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把

分类: Python 标签: ,

scrapy的优点

2013年4月5日 没有评论 阅读176 次   

scrapy的优点: 采取可读性更强的xpath代替正则 强大的统计和log系统 同时在不同的url上爬行 支持shell方式,方便独立调试 写middleware,方便写一些统一的过滤器 通过管道的方式存入数据库 下面是基于ubuntu 10.4下的开发: 1 在文件/etc/apt/sources.list中加入以下命令 1 deb http://archive.scrapy.org/ubuntu lucid

分类: Python 标签:

使用scrapy进行大规模抓取

2013年4月5日 没有评论 阅读296 次   

原文:http://www.yakergong.net/blog/archives/500 使用scrapy有大概半年了,算是有些经验吧,在这里跟大家讨论一下使用scrapy作为爬虫进行大规模抓取可能遇到的问题。我们抓取的目标是教育网上的网站(目前主要针对.edu.cn和.cas.cn/.cass.cn域名),这半年里抓取了百万以上的url,其实百万url的规模不算大,我们一直

分类: Python 标签:

python 获取脚本所在目录

2013年4月5日 没有评论 阅读140 次   

平时写python经常会想获得脚本所在的目录,例如有个文件跟脚本文件放在一个相对的目录位置,那就可以通过脚本文件的目录找到对应的文件,即使以后脚本文件移到其他地方,脚本也基本不需要改动(相对于写死目录的好处)。下面通过一些代码进行一下对比。 这是我写的一段代码在:/root/printfabcd/py/filePath.py Python代

分类: Django, Python 标签:

Scrapy使用——抓取赶集网北京公交信息

2013年4月5日 没有评论 阅读199 次   

原文:http://wwwdigger.com/?p=111 关于Scrapy工作过程会在之后添加。   0.相关信息 a)首先要已经完成Scrapy的配置安装(如果没有安装,可以参考Scrapy安装过程); b)了解XPath的基本用法(可以参考XPath教程); c)Chrome的审查元素功能也很好用,但是FF的Firebug个人感觉用着更舒服,推荐使用; d)抓取过程就是发出

分类: Python 标签:

Python:十年语言之冠

2013年2月19日 没有评论 阅读166 次   

最近我发现了这个PYPL——编程语言流行指数。它对各种语言的流行指标进行了二次发掘。作者指出TIOBE指数很可能不能反映出真实情况,归咎于一些编程语言的名称会导致误解。他引入了一些新术语,利用谷歌趋势得出来不同的结论。 通过作者的研究,我们可以得知,在过去的十年里,Python语言获得了最大的增长幅度。从图片上

分类: Python 标签:

Python中使用Memcache

2012年12月22日 没有评论 阅读228 次   

装memcache(Ubuntu) apt-get install memcached 安装python-memached pip install python-memcached 启动memcached /usr/bin/memcached -d -m 64 -p 12333 -u memcache -l 127.0.0.1 启动参数说明: -d 选项是启动一个守护进程 -m 是分配给Memcache使用的内存数量,单位是MB,默认64MB -M return error on memory exhaus

分类: Python 标签:

定向抓取漫谈

2012年12月22日 没有评论 阅读221 次   

原文:http://www.searchtb.com/2011/01/an-introduction-to-crawler.html 网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在

分类: Python 标签:

sqlalchemy Common Filter Operators

2012年12月14日 没有评论 阅读371 次   

Here’s a rundown of some of the most common operators used in filter(): equals: query.filter(User.name == 'ed') not equals: query.filter(User.name != 'ed') LIKE: query.filter(User.name.like('%ed%')) IN: query.filter(User.name.in_(['ed', 'wendy', 'jack'])) # works with query

分类: Python 标签:

python科普

2012年12月14日 没有评论 阅读304 次   

软件业的特点,就是层出不穷的新东东涌现。Windows早就革了DOS的命,浏览器差不多革了桌面软件的命,云计算准备再革所有软件的命,最后还追上个乔布斯说一切听他的。 动荡的软件界,让人眼花缭乱。这一切的后面,是失落的编程族:好容易才精通的东西,随之变得一钱不值。曾经的人才,如同数码产品般的迅速贬值。乃至好多

分类: Python 标签: ,

Python正则表达式操作指南

2012年12月14日 没有评论 阅读281 次   

原文出处:http://www.amk.ca/python/howto/regex/ 原文作者:A.M. Kuchling (amk@amk.ca) 授权许可:创作共用协议 翻译人员:FireHare 校对人员:Leal 适用版本:Python 1.5 及后续版本 摘要 本文是通过Python的 re 模块来使用正则表达式的一个入门教程,和库参考手册的对应章节相比,更为浅显易懂、循序渐进。 本文

分类: Python 标签:

来自知乎:知乎为什么选择 Tornado 作为 Web 开发框架?

2012年12月14日 没有评论 阅读461 次   

Python的web开发框架这么多,实在眼花缭乱,Tornado相比来说还算个新东西,文档也很少,是哪些特性吸引了知乎工程师呢? 孙大同,freshman @ …: Tornado异步非阻塞的I/O模型的确让人耳目一新,Tornado的优势主要在于对大量Comet长轮询连接的维护上。这也是FriendFeed开发Tornado的原因—–因为FriendFeed需要

分类: Python 标签:

Tornado如何在百度BAE上运行

2012年12月4日 没有评论 阅读361 次   

index.py: import tornado.wsgi class MainHandler(tornado.web.RequestHandler): def get(self): self.write("Hello, world! - Tornado\n") app = tornado.wsgi.WSGIApplication([ (r"/", MainHandler), ]) from bae.core.wsgi import WSGIApplication application = WSGIApplication(ap

分类: Python 标签:

非阻塞的Python web框架tornado

2012年12月3日 没有评论 阅读499 次   

公司项目中需要使用长链接方式的获取后端数据库——主要是Redis的实时数据。 由于项目本身是PHP的初次看到这个项目,首先想到的是Apache + mod_php的方式,配合php的ob_start()方式直接调用,就如同我之前的一篇东西所说的那样。可问题不这么简单: 系统是nginx + php-fpm方式,php-fpm“hold不住”过多的Http请求,而n

分类: Python 标签:

无觅相关文章插件,快速提升流量