Spark 配置指南

Spark可以在三个地方配置系统:

  • Spark属性控制大部分的应用参数。 这些属性可以通过SparkConf对象, 或者Java系统属性.
  • 环境变量可以为每台机器配置,比如IP地址, 通过每个节点上的conf/spark-env.sh脚本.
  • 可同通过log4j.properties配置日志.

阅读全文

Spark 快速入门

本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者Python编写独立程序。 你可以查看Spark编程指南了解完整的参考。

开始下面的快速入门之前,首先需要到Spark网站下载一份打包好的spark。 既然本教程中我们不使用HDFS,你可以随便下载一个适配任何Hadoop的版本的Spark。

本教程翻译时的Spark版本为1.1.1

阅读全文

Spring Data for Mongo 介绍

本文将快速介绍Spring Data for Mongo的使用。
Spring Data for MongoDB是Spring Data的一个子模块。 目标是为MongoDB提供一个相近的一致的基于Spring的编程模型。
Spring Data for MongoDB核心功能是映射POJO到Mongo的DBCollection中的文档,并且提供Repository 风格数据访问层。

相似的ORM/持久化框架还有

  • morphia: MongoDB官方支持的ORM框架,可以很好的和Spring, Guice等DI框架集成,使用起来很方便。
  • Hibernate OGM: Hibernate提供了Hibernate风格的NoSql ORM框架。
  • jongo: 提供Mongo shell一样灵活的查询,并且提供ORM by Jackson,和Mongo java driver一样快。

阅读全文

Kafka和Spring集成实践

本文以单机的环境演示如何将Kafka和Spring集成。
单机的环境最容易搭建, 并且只需在自己的PC上运行即可, 不需要很多的硬件环境,便于学习。 况且,本文的目的不是搭建ZooKeeper的集群环境, 而是重点介绍Kafka和Spring的应用。
具体的软件环境如下:

  • OS: CentOS 6.4
  • Zookepper: zookeeper-3.4.6
  • Kafka: kafka_2.9.1-0.8.2-beta
  • Java: JDK 1.7.0_45-b18
  • Spring:4.0.6

本例子在我的这个环境中运行正常, 全部代码可以到 github 下载。

阅读全文