Browsed by
分类:NoSQL

Redis MongoDB Hadoop&HBase Cassandra CouchBase Riak LevelDB Neo4j

RabbitMQ的几种典型使用场景

RabbitMQ的几种典型使用场景

RabbitMQ主页:https://www.rabbitmq.com/ 学习RabbitMQ的使用场景,来自官方教程:https://www.rabbitmq.com/getstarted.html 场景1:单发送单接收 使用场景:简单的发送与接收,没有特别的处理。 Producer: import com.rabbitmq.client.ConnectionFactory; import com.rabbitmq.client.Connection; import com.

使用Python进行Elasticsearch数据索引

使用Python进行Elasticsearch数据索引

原文:http://www.justinablog.com/archives/967 Elasticsearch是一个分布式、Restful的搜索及分析服务器,Apache Solr一样,它也是基于Lucence的索引服务器,但我认为Elasticsearch对比Solr的优点在于: 轻量级:安装启动方便,下载文件之后一条命令就可以启动; Schema free:可以向服务器提交任意结构的JSON对象,So

hadoop配置文件加载顺序

hadoop配置文件加载顺序

原文  http://www.cnblogs.com/wolfblogs/p/4147485.html 用了一段时间的hadoop,现在回来看看源码发现别有一番味道,温故而知新,还真是这样的 在使用hadoop之前我们需要配置一些文件,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml。那么这些文件在什么时候被hadoop使用? 一般的在启动hadoop的时

初始zookeeper与集群搭建实例

初始zookeeper与集群搭建实例

原文  http://www.cnblogs.com/dennisit/p/4141342.html zookeeper 是什么 Zookeeper, 一种分布式应用的协作服务 , 是 Google 的 Chubby 一个开源的实现 , 是Hadoop 的分布式协调服务 , 它包含一个简单的原语集 , 应用于分布式应用的协作服务 ,使得分布式应用可以基于这些接口实现诸如同步、配置维护和分集群或者命名

Hive整体优化策略

Hive整体优化策略

原文  http://www.cnblogs.com/jacksu-tencent/p/4141832.html 一 整体架构优化 现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点: 1 根据不同业务需求进行日期分区,并执行类型动态分区。 相关参数设置:

为什么长尾数据的翻页技术实现复杂

为什么长尾数据的翻页技术实现复杂

原文  http://timyang.net/data/key-list-pagination/ 今天讨论了一个传统的问题,问题本身比较简单,就是针对key-list类型的数据,如何优化方案做到性能与成本的tradeoff。Key-list在用户类型的产品中非常普遍,如一个用户的好友关系 {“uid”:{1,2,3,4,5}},一条微博下面的评论id列表,一个用户发表的微博id列表等。

HBase性能调优

HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServe

ssdb 主从同步复制配置详细步骤

ssdb 主从同步复制配置详细步骤

原文  http://blog.csdn.net/u012516914/article/details/41646563 SSDB 的配置文件是一种层级 key-value 的静态配置文件, 通过一个 TAB 缩进来表示层级关系. 以 ‘#’ 号开始的行是注释. ssdb的使用遵循redis协议,读写性能都特别快。 有时我们在使用数据库时,像mongodb,redis和一些关系行数据,为了使数据更加安

查询MYSQL和查询HBASE速度比较

查询MYSQL和查询HBASE速度比较

Mysql,关系型数据库; HBase,NoSql数据库。 查询Mysql和查询HBase,到底哪个速度快呢? 与一些真正的大牛讨论时,他们说HBase写入速度,可以达到每秒1W。而HBase的理想速度为每秒10W。 来个实验说明一下,此实验只能表明,当前环境下运行状态。我的实验效果,没有到1W,还在优化中… 环境: 有3台虚拟机,运行Hadoo

Hadoop学习:Hadoop家族系列文章

Hadoop学习:Hadoop家族系列文章

Hadoop家族系列文章 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起云涌的时代,以Ha

Ubuntu下HBase安装过程

Ubuntu下HBase安装过程

一、安装需求 安装java 1.6,Hadoop 1.2.1及zookeeper ubuntu机上已安装Hadoop 1.2.1和zookeeper 3.4.3(zookeeper的安装方法可见于ZooKeeper安装过程http://blog.csdn.net/gaokao2011/article/details/17020209 )。 此次安装的hbase版本为0.94.13。 安装成功并执行后,该虚拟机会有以下java进程: NameNode DataNode

Mongodb亿级数据量的性能测试

Mongodb亿级数据量的性能测试

进行了一下Mongodb亿级数据量的性能测试,分别测试如下几个项目: (所有插入都是单线程进行,所有读取都是多线程进行) 1) 普通插入性能 (插入的数据每条大约在1KB左右) 2) 批量插入性能 (使用的是官方C#客户端的InsertBatch),这个测的是批量插入性能能有多少提高 3) 安全插入功能 (确保插入成功,使用的是Sa

百万级别数据,数据库Mysql,Mongodb,Hbase如何选择?

百万级别数据,数据库Mysql,Mongodb,Hbase如何选择?

  情况说明: 现在需要做一个数据存储,500w左右的数据,日后每天大约产生5w条左右的数据。想把这些数据存储起来,供日后的数据分析用?使用上面说的三种数据库中的哪中比较好?是否有必要建立集群? 个人看法是:从长远角度看,由于单台机器的性能瓶颈,后期肯定要做集群,单纯的做复制最终也无法缓解单台master上读

HBase 系统架构

HBase 系统架构

HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。 HBase特性: 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC Server搭建大规模结构化存储集群 HBase是Google BigT

NoSQL 数据建模技术

NoSQL 数据建模技术

原文:http://coolshell.cn/articles/7270.html 全文译自墙外文章“NoSQL Data Modeling Techniques”,译得不好,还请见谅。这篇文章看完之后,你可能会对NoSQL的数据结构会有些感觉。我的感觉是,关系型数据库想把一致性,完整性,索引,CRUD都干好,NoSQL只干某一种事,但是牺牲了很多别的东西。总体来说,我觉得NoSQ

如何使用SSDB的zscan命令

如何使用SSDB的zscan命令

SSDB(LevelDB 服务器, NoSQL 存储方案)的 zscan 是最强大的一条命令, 因为它操作的是 zset(sorted set) 数据类型, 只需要一条 zscan 命令就能直接地表达业务逻辑, “所写即所想”. 例如, 获取用户的未读消息列表, 获取按上架时间排序的商品列表, 获取微博 timeline… zset 可以理解为关系数据库里具有两个

SSDB 的双主和多主配置

SSDB 的双主和多主配置

原文:http://www.ideawu.net/blog/archives/770.html   SSDB 数据库是支持双主(双 Master)和多主架构的. 而且, 我们的应用也是部署双主架构, 但当作单主来用. 也就是说, 平时只往其中一个写, 当出现故障时, 整体切换到另一个主上面. 如果应用层已经解决了数据拆分, 也即不会两个节点同时操作一个 key, 那么就可以放

SSDB在大数据量日志分析中的应用案例

SSDB在大数据量日志分析中的应用案例

原文:http://www.ideawu.net/blog/archives/723.html  在一个网站广告系统中, 需要针对每一个用户所接受的弹窗次数和点击次数这两个重要指标进行统计, 从而进行效果分析和精准投放的改进. 这两个指标的统计算法其实非常简单, 主要的难点在于大数据量. 广告系统的涉及的用户量达到数千万人, 每天的日志数据量是几亿条.

ssdb 命令说明

ssdb 命令说明

set: 说明:设置指定 key 的值内容. cmd:set(‘key’, ‘value’); Ssdb 命令说明 setx: 说明:设置指定 key 的值内容, 同时设置存活时间. cmd:setx(‘key’, ‘value’, 60); 单位:秒 setnx: 说明:当 key 不存在时, 设置指定 key 的值内容. 如果已存在, 则不设置. cm

SSDB:一个高性能的支持丰富数据结构的 NoSQL 数据库

SSDB:一个高性能的支持丰富数据结构的 NoSQL 数据库

SSDB 一个高性能的支持丰富数据结构的 NoSQL 数据库, 用于替代 Redis.   View on GitHub         特性 替代 Redis 数据库, Redis 的 100 倍容量 LevelDB 网络支持, 使用 C/C++ 开发 Redis API 兼容, 支持 Redis 客户端 适合存储集合数据, 如 list, hash, zset… 客户端 API 支持的语言包括: C++, PHP,