跟着实例学习ZooKeeper的用法：分布式锁

上一篇跟着实例学习ZooKeeper的用法： Leader选举介绍了ZooKeeper Leader选举的两种用法，这一篇文章我们将介绍分布式锁(Lock)的实现。

阅读全文

2014年12月12日

大数据

by smallnest

跟着实例学习ZooKeeper的用法： Leader选举

ZooKeeper官方给出了使用zookeeper的几种用途。

Leader Election
Barriers
Queues
Locks
Two-phased Commit
其它应用如Name Service, Configuration, Group Membership

在实际使用ZooKeeper开发中，我们最常用的是Apache Curator。它由Netflix公司贡献给Apache，目前版本2.7.0。
相信你在使用ZK API开发时会遇到让人头疼的几个问题，ZK连接管理、SESSION失效等一些异常问题的处理，Curator替我们解决了这些问题，通过对ZK连接状态的监控来做出相应的重连等操作，并触发事件。
更好的地方是Curator对ZK的一些应用场景提供了非常好的实现，而且有很多扩充，这些都符合ZK使用规范。
它的主要组件为：

Recipes， ZooKeeper的系列recipe实现, 基于 Curator Framework.
Framework，封装了大量ZooKeeper常用API操作，降低了使用难度, 基于Zookeeper增加了一些新特性，对ZooKeeper链接的管理，对链接丢失自动重新链接。
Utilities，一些ZooKeeper操作的工具类包括ZK的集群测试工具路径生成等非常有用，在Curator-Client包下org.apache.curator.utils。
Client，ZooKeeper的客户端API封装，替代官方 ZooKeeper class，解决了一些繁琐低级的处理，提供一些工具类。
Errors，异常处理, 连接异常等
Extensions，对curator-recipes的扩展实现，拆分为curator-:stuck_out_tongue_closed_eyes:iscovery和curator-:stuck_out_tongue_closed_eyes:iscovery-server提供基于RESTful的Recipes WEB服务.

Recipe 词典的意思是食谱,配方,美食菜谱,烹饪法，延伸用法：某项计划或步骤来取得预先给定的结果。在计算机领域没有合适的汉语对应，如果把ZooKeeper看成菜的话，recipe就相当于菜谱，比如麻婆豆腐，宫保鸡丁。

由于内容较多，将会分成多篇文章进行介绍。

阅读全文

2014年12月11日

Java

by mxbhxx

Java中的几种引用类型： StrongReference,SoftReference,WeakReference 和 PhantomReference

mxbhxx在他的博客中总结了几种Java引用类型，简单明了，特意转载过来。

阅读全文

2014年12月11日

大数据

by smallnest

Spark SQL 初探：使用大数据分析2000万数据

去年网上曾放出个2000W的开房记录的数据库，不知真假。最近在学习Spark，所以特意从网上找来数据测试一下，这是一个绝佳的大数据素材。如果数据涉及到个人隐私，请尽快删除，本站不提供此类数据。你可以写个随机程序生成2000W的测试数据，以CSV格式。

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Spark是一个高效的分布式计算系统，相比Hadoop，它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API，同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark”，是一个在Spark上数据仓库的实现，在兼容Hive的情况下，性能最高可以达到Hive的一百倍。

Apache Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

2014年处， Apache 基金会宣布旗下的 Apache Spark 项目成为基金会的顶级项目，拥有顶级域名 http://spark.apache.org/。 Spark 的用户包括：阿里巴巴、Cloudera、Databricks、IBM、英特尔和雅虎等知名厂商。

Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL从hive里面读取数据。

在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。在会议上，Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因此会有一个很快的速度。然而，不容忽视的是，Shark继承了大量的Hive代码，因此给优化和维护带来了大量的麻烦。随着性能优化和先进分析整合的进一步加深，基于MapReduce设计的部分无疑成为了整个项目的瓶颈。详细内容请参看 Shark, Spark SQL, Hive on Spark, and the future of SQL on Spark

当前Spark SQL还处于alpha阶段，一些API在将将来的版本中可能会有所改变。

我也翻译几篇重要的Spark文档，你可以在我的网站找到。 Spark翻译文档

本文主要介绍了下面几个知识点：