2015年03月11日

大数据

by smallnest

Kafka 配置参数

Kafka为broker,producer和consumer提供了很多的配置参数。了解并理解这些配置参数对于我们使用kafka是非常重要的。
本文列出了一些重要的配置参数。

官方的文档 Configuration比较老了，很多参数有所变动，有些名字也有所改变。我在整理的过程中根据0.8.2的代码也做了修正。

阅读全文

2015年01月22日

大数据

by smallnest

key为null时Kafka会将消息发送给哪个分区?

当你编写kafka Producer时，会生成KeyedMessage对象。

1	KeyedMessage<K, V> keyedMessage = new KeyedMessage<>(topicName, key, message)

这里的key值可以为空，在这种情况下， kafka会将这个消息发送到哪个分区上呢？依据Kafka官方的文档，默认的分区类会随机挑选一个分区：

The third property "partitioner.class" defines what class to use to determine which Partition in the Topic the message is to be sent to. This is optional, but for any non-trivial implementation you are going to want to implement a partitioning scheme. More about the implementation of this class later. If you include a value for the key but haven't defined a partitioner.class Kafka will use the default partitioner. If the key is null, then the Producer will assign the message to a random Partition.

但是这句话相当的误导人。

阅读全文

2015年01月19日

大数据

by smallnest

如何为ZooKeeper, Kafka 和 Spark 应用编写单元测试

ZooKeeper, Kafka和Spark是当下流行的大数据平台工具之一。这两年得到飞速的发展，国内厂商也越来越多的使用它们。
本站有多篇文章介绍了它们的开发指南，如：

官方网站提供了很多的代码例子，互联网上也有很多的开发例子，你可以很容易的学习如果编写基于这些平台框架的技术。
但是如何为这些应用编写单元测试呢？本文提供了几种编写单元测试的技术。

阅读全文

2015年01月05日

大数据

by smallnest

Spark Streaming 集成 Kafka 总结

最近在做利用Spark streaming和Kafka进行数据分析的研究，整理一些相应的开发文档，做了一些代码实践。本文特意将这些资料记录下来。

本文最后列出了一些参考的文档，实际调研中参考了很多的资料，并没有完全将它们记录下来，只列出了主要的一些参考资料。
当前的版本：

Spark: 1.2.0
Kafka: 0.8.1.1

Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。有以下特点:

易于使用
提供了和批处理一致的高级操作API，可以进行map, reduce, join, window。
容错
Spark Streaming可以恢复你计算的状态，包括lost work和operator state (比如 sliding windows)。支持worker节点和driver 节点恢复。
Spark集成
可以结合批处理流和交互式查询。可以重用批处理的代码。还可以直接使用内置的机器学习算法、图算法包来处理数据。
它可以接受来自文件系统, Akka actors, rsKafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源或者你自己定义的输入源。

阅读全文

2014年11月19日

大数据

by smallnest

Kafka和Spring集成实践

本文以单机的环境演示如何将Kafka和Spring集成。
单机的环境最容易搭建，并且只需在自己的PC上运行即可，不需要很多的硬件环境，便于学习。况且，本文的目的不是搭建ZooKeeper的集群环境，而是重点介绍Kafka和Spring的应用。
具体的软件环境如下：

OS: CentOS 6.4
Zookepper： zookeeper-3.4.6
Kafka： kafka_2.9.1-0.8.2-beta
Java： JDK 1.7.0_45-b18
Spring:4.0.6

本例子在我的这个环境中运行正常，全部代码可以到 github 下载。

阅读全文

2014年08月07日

大数据

by smallnest

Spring 集成 Kafka

spring-integration-kafka是Spring官方提供的一个Spring集成框架的扩展，用来为使用Spring框架的应用程序提供Kafka框架的集成。
当前spring-integration-kafka仅提供Kafka 0.8的集成，低版本的Kafka并不支持。

新的文章介绍了代码实践： Kafka和Spring集成实践

spring-integration-kafka仅仅支持两个组件，分别对应Producer和 High Level Consumer。它们分别是：

Outbound Channel Adapter
Inbound Channel Adapter based on the High level consumer API

其它的Kafka的特性比如Simple Consumer API。所以使用spring-integration-kafka你并不能指定特定的offset来读取数据，或者进行更灵活的定制。

总的来说，spring-integration-kafka还处于很低级的阶段，和整体的Spring framework/Spring Integration Framework还不是很完美的整合。如果你现在就使用它，可能在开发的过程中会遇到些问题。

阅读全文

2014年08月06日

大数据

by smallnest

Kafka快速入门

编译自官方文档

Apache Kafka是一个分布式消息发布订阅系统。它最初由LinkedIn公司基于独特的设计实现为一个分布式的提交日志系统( a distributed commit log)，，之后成为Apache项目的一部分。Kafka系统快速、可扩展并且可持久化。它的分区特性，可复制和可容错都是其不错的特性。

Apache Kafka与传统消息系统相比，有以下不同：

它被设计为一个分布式系统，易于向外扩展；
它同时为发布和订阅提供高吞吐量；
它支持多订阅者，当失败时能自动平衡消费者；
它将消息持久化到磁盘，因此可用于批量消费，例如ETL，以及实时应用程序。

First let's review some basic messaging terminology:
首先来了解一下Kafka所使用的基本术语：

Topic

Kafka将消息种子(Feed)分门别类，每一类的消息称之为话题(Topic).

Producer

发布消息的对象称之为话题生产者(Kafka topic producer)

Consumer

订阅消息并处理发布的消息的种子的对象称之为话题消费者(consumers)

Broker

已发布的消息保存在一组服务器中，称之为Kafka集群。集群中的每一个服务器都是一个代理(Broker). 消费者可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息。

听起来和JMS消息处理差不多？

让我们站的高一点，从高的角度来看，Kafka集群的业务处理就像这样子：

Client和Server之间的交流通过一条简单、高性能并且不局限某种开发语言的TCP协议。除了Java Client外，还有非常多的其它编程语言的Client。

阅读全文

鸟窝

《深入理解Go并发编程》新书发售中。一书在手，并发无忧

Kafka 配置参数

key为null时Kafka会将消息发送给哪个分区?

如何为ZooKeeper, Kafka 和 Spark 应用编写单元测试

Spark Streaming 集成 Kafka 总结

Kafka和Spring集成实践

Spring 集成 Kafka

Kafka快速入门