做大数据过程中遇到的13个问题

2014年11月22日 没有评论 阅读5 次   

原文  http://www.36dsj.com/archives/16982 1、最早的数据分析可能就报表 目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据。早期可能数据量也不大,随便搞个数据库,然后SQL搞一下,数据报表就出来了。但是数据量大起来怎么分析呢?数据

分类: 云计算 标签:

网关协议学习:CGI、FastCGI、WSGI

2014年11月22日 没有评论 阅读6 次   

原文  http://blogread.cn/it/article/6904?f=hot1 CGI CGI即通用网关接口(Common Gateway Interface),是外部应用程序(CGI程序)与Web服务器之间的接口标准,是在CGI程序和Web服务器之间传递信息的规程。CGI规范允许Web服务器执行外部程序,并将它们的输出发送给Web浏览器,CGI将Web的一组简单的静态超媒体文档变成一

分类: 架构 标签:

Mysql——Innodb和Myisam概念与数据恢复

2014年11月22日 没有评论 阅读1 次   

原文  http://www.cnblogs.com/DwyaneTalk/p/4113829.html Innodb和Myisam是Mysql常见的两种数据存储引擎。没有研究过Oracle、SQL Server等数据库,所以下面只针对Mysql。 一、两种方式的数据存储结构: 在Myisam下,数据库的每个数据表都有*.frm、*.YMI和*.YMD三个文件,其中*.frm存储数据表的表结构,*.MYI存储数据

分类: Mysql 标签:

偏爱MySQL,Nifty使用4个Web Server支撑5400万个用户网站

2014年11月22日 没有评论 阅读4 次   

Nifty运营网站已经有很长一段时间,而在基于HTML5的WYSIWYG网页制作平台推出后,用户在该公司建立的网站已超过5400万个,同时其中大部分网站的日PV都不到100。鉴于每个网页的PV都很低,因此传统的缓存策略并不适用。然而即使是这样,该公司也只使用了4个Web Server就完成了这些工作。近日,Wix首席后端工程师Aviran Mo

分类: 架构 标签:

MySQL数据库如何解决大数据量存储问题

2014年11月21日 没有评论 阅读7 次   

原文:http://blog.csdn.net/likika2012/article/details/38816037 利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(

分类: Mysql 标签:

MySQL优化案例 — RAND()优化

2014年11月21日 没有评论 阅读1 次   

原文  http://ourmysql.com/archives/1334 众所周知,在MySQL中,如果直接 ORDER BY RAND() 的话,效率非常差,因为会多次执行。事实上,如果等值查询也是用 RAND() 的话也如此,我们先来看看下面这几个SQL的不同执行计划和执行耗时。 首先,看下建表DDL,这是一个没有显式自增主键的InnoDB表: [yejr@imysql]> sh

分类: Mysql 标签:

Scrapy系列教程

2014年11月21日 没有评论 阅读3 次   

作者: http://blog.csdn.net/iloveyin/article/details/41309459 Scrapy系列教程(1)——命令行工具 默认的Scrapy项目结构 在开始对命令行工具以及子命令的探索前,让我们首先了解一下Scrapy的项目的目录结构。 虽然可以被修改,但所有的Scrapy项目默认有类似于下边的文件结构: scrapy.cfg myproject/

分类: Python教程 标签:

Caching routes with Laravel 4

2014年11月21日 没有评论 阅读1 次   

原文  http://james-brooks.uk/caching-routes-with-laravel-4/ Yesterday I blogged about how I organise my Laravel routes within my Laravel applications, this post is a follow on to more route goodness. I was experimenting with a clients website, trying to speed the page load up on the server side

分类: PHP框架 标签:

Facebook’s alternative PHP engine attracts Web service providers

2014年11月21日 没有评论 阅读1 次   

原文  http://www.networkworld.com/article/2850754/facebooks-alternative-php-engine-attracts-web-service-providers.html#tk.rss_all Some fairly large Internet services are pressing into production Facebook’s open-source PHP runtime engine after being impressed with the performance metrics for t

分类: PHP教程 标签:

腾讯大数据官网DATA.QQ.COM正式上线

2014年11月21日 没有评论 阅读3 次   

大数据时代,业界各巨头都在投入重兵打造自己的大数据平台,分析挖掘蕴藏在数据金矿中的价值。继百度之后,腾讯今天也上线了腾讯大数据平台(data.qq.com)。有关腾讯大数据平台的介绍大家可以点击文章“ 专访腾讯蒋杰:深度揭秘腾讯大数据平台 ”查看,本次大数据官网上线,意味着腾讯将会把它的 大数据分析挖掘能力开放

分类: 开源资讯, 推荐阅读 标签:

Docker镜像与容器存储结构分析

2014年11月21日 没有评论 阅读5 次   

Docker是一个开源的应用容器引擎,主要利用Linux内核namespace实现沙盒隔离,用Cgroup实现资源限制。 Docker 支持三种镜像层次的存储driver:aufs、device mapper、Btrfs。 广州Linux爱好者 刁金明,通过一系列小实验对Docker的device mapper和aufs这两个存储结构进行了深入分析。以下问原文: aufs: AUFS (AnotherUnion

分类: Linux 标签:

修改 Ubuntu ulimit 限制

2014年11月20日 没有评论 阅读1 次   

最近,网站一到高峰期,CPU就会飙升到100%,但内存,IO,网络等一切正常,Google了一下,有可能是ulimit的问题,马上查看文件句柄数限制 ulimit -n 得到的结果是:1024,这个值对生产中的服务显得偏小。 网上给出的解决方案,大部分是直接输入 ulimit -SHn 51200 # 51200可自己根据应用调整 此法缺点很明显,一旦退

分类: Linux 标签:

Linux 新建用户、用户组,给用户分配权限

2014年11月20日 没有评论 阅读4 次   

原文  http://blog.snsgou.com/post-831.html Linux 系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪,并控制他们对系统资源的访问;另一方面也可以帮助用户组

分类: Linux, 架构 标签:

Hadoop集群搭建

2014年11月20日 没有评论 阅读0 次   

原文  http://blog.csdn.net/yang_best/article/details/41280553 接下来的几节描述了如何配置Hadoop集群。 配置文件 对Hadoop的配置通过 conf/ 目录下的两个重要配置文件完成: hadoop-default.xml – 只读的默认配置。 hadoop-site.xml – 集群特有的配置。 要了解更多关于这些配置文件如何影响Hadoop框

分类: NoSQL 标签:

Hadoop作业调优参数整理及原理

2014年11月20日 没有评论 阅读3 次   

原文  http://www.blogjava.net/wangxinsh55/archive/2014/11/19/420297.html http://www.linuxidc.com/Linux/2012-01/51615.htm 1 Map side tuning 参数 1.1 MapTask 运行内部原理 当map task 开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buff

分类: NoSQL 标签:

使用Hadoop的MapReduce与HDFS处理数据

2014年11月20日 没有评论 阅读1 次   

原文  http://blog.csdn.net/tpkey/article/details/41283561 hadoop是一个分布式的基础架构,利用分布式实现高效的计算与储存,最核心的设计在于HDFS与MapReduce,HDFS提供了大量数据的存储,mapReduce提供了大量数据计算的实现,通过Java项目实现hadoop job处理海量数据解决复杂的需求。 一、基本环境及相关软件的配

分类: NoSQL 标签:

HTML 语言代码参考

2014年11月19日 没有评论 阅读2 次   

ISO 语言代码 HTML 的 lang 属性可用于网页或部分网页的语言。这对搜索引擎和浏览器是有帮助的。 根据 W3C 推荐标准,您应该通过 <html> 标签中的 lang 属性对每张页面中的主要语言进行声明,比如: <html lang="en"> ... </html> 在 XHTML 中,采用如下方式在 <html> 标签中对语言进行声明:

分类: 前端技术 标签:

Poor Man PHP Profiler

2014年11月18日 没有评论 阅读2 次   

原文:http://huoding.com/2014/11/14/388 说起 Profiler,老派的 PHP 程序员会选 XDebug,新派的 PHP 程序员会选 Xhprof,不过我们公司的服务器上都没装,于是我写了这个「Poor Man PHP Profiler」。 既然不用 XDebug 和 Xhprof,我们就要自己找 Profiler 的数据源才行。好在 PHP 本身支持慢日志,而且里面包含了调用栈

分类: PHP教程 标签:

解决mysqldb查询大量数据导致内存使用过高的问题

2014年11月18日 没有评论 阅读3 次   

原文:http://blog.csdn.net/jianhong1990/article/details/41209493 1.源代码 connection=MySQLdb.connect( host="thehost",user="theuser", passwd="thepassword",db="thedb") cursor=connection.cursor() cursor.execute(query) for row in cursor.fetchall(): print(row) 2.问题 普通的操作无论

分类: Mysql, Python教程 标签:

SSDP协议

2014年11月18日 没有评论 阅读2 次   

原文:http://mengzhuo.org/blog/ssdp%e5%8d%8f%e8%ae%ae%e7%ac%94%e8%ae%b0.html 近来在研究SSDP,Simple Service Discovery Protocol (简单服务发现协议)。 这是用来实现无配置,自发现局域网内部服务的协议。 由IPv4下有固定的239.255.255.250:1900这一固定的地址来负责多播数据。 不过,从我的学习经历来说,要啃这种

分类: 编程 标签: