Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型，通过connectors可以将大数据从其它系统导入到Kafka中，也可以从Kafka中导出到其它系统。Kafka Connect可以将完整的数据库注入到Kafka的Topic中，或者将服务器的系统监控指标注入到Kafka，然后像正常的Kafka流处理机制一样进行数据流处理。而导出工作则是将数据从Kafka Topic中导出到其它数据存储系统、查询系统或者离线分析系统等，比如数据库、Elastic Search、Apache Ignite等。

Kafka Connect特性包括：

Kafka connector通用框架,提供统一的集成API
同时支持分布式模式和单机模式
REST 接口，用来查看和管理Kafka connectors
自动化的offset管理，开发人员不必担心错误处理的影响
分布式、可扩展
流/批处理集成

阅读全文

2015年12月04日

大数据

by smallnest

Kafka 0.9 发布

confluent的CTO Neha Narkhede女士在11月24日宣布 Apache Kafka 发布0.9版本。confluent是由apache kafka的创建者也就是LinkedIn开发Kafka的那个team成立的一家公司。这个版本提供了相当多的Feature和bug fix,具体的改动可以参看 523 JIRA
以下是0.9的主要的改动:

阅读全文

2015年12月03日

大数据

by smallnest

为豆瓣电影实现Item-based协同过滤的推荐系统

前面的两篇文章分别使用Spark mllib ALS实现了Model-based协同过滤推荐系统和使用Mahout实现了User-based的协同过滤推荐系统。
我们再来回顾一下item-base CF算法的特点：

物品数明显小于用户数的场合，否则物品相似度矩阵计算代价很大
适合长尾物品丰富，用户个性化需求强的领域
对新用户友好，对新物品不友好，因为物品相似度矩阵不需要很强的实时性
利用用户历史行为做推荐解释，比较令用户信服

所以item-base挺适合做电影的推荐。当用户浏览某个电影的时候，我们可以推荐给他类似的电影，或者根据用户以前的观影记录，推荐他感兴趣的电影。
本文还是以mahout 非分布式计算的方式实现。因为电影的记录比较少(166条),计算量不是很大。

阅读全文

2015年12月02日

大数据

by smallnest

为豆瓣电影实现User-based协同过滤的推荐系统

协同过滤（Collaborative Filtering），简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的信息，个人透过合作的机制给予信息相当程度的反馈（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，反馈不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要，比如浏览信息，收藏，分享，点击等。

阅读全文

2015年11月30日

大数据

by smallnest

使用Spark MLlib给豆瓣用户推荐电影

推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用户可能喜欢的东西。
随着电子商务规模的不断扩大，商品数量和种类不断增长，用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同，以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。

阅读全文

2015年05月14日

大数据

by smallnest

Kafka的一个配置参数

Kafka默认的消息大小为1000012,参数的名称为message.max.bytes.

1
2
3

kafka.server.KafkaConfig:

val messageMaxBytes = props.getIntInRange("message.max.bytes", 1000000 + MessageSet.LogOverhead, (0, Int.MaxValue))

但是对于topic来说，这个参数的名称却叫max.message.bytes，和前面的参数的名称很容易弄混。 Kafka应该将这两个参数统一成一个。
因此，如果你想对Boker统一设置的话，你需要在server.properties中设置：

1	message.max.bytes=1000000

如果针对单个的topic设置，你需要:

1	bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic ABC --config max.message.bytes=1000000

另外，你还需要为Consumer设置fetch.message.max.bytes，
为Boker设置replica.fetch.max.bytes (至少和message.max.bytes一样，最大Int.MaxValue)

stackoverflow针对这个问题有个问答：
需要针对Boker和Consumer同时配置：

Boker
1 replica.fetch.max.bytes
2 message.max.bytes
Consumer
3 fetch.message.max.bytes
需要重启服务器。
尤其第二项，如果没有配置，你不会得到任何的异常信息或者警告，很难发现此类问题。
值设的太大也不好，因为会占用太大的内存用于数据传输（消费或者复制）

2015年04月29日

大数据

by Todd Palino

LinkedIn运行大规模的Kafka集群

英文原文： Running Kafka At Scale by Todd Palino, Staff Engineer, Site Reliability.
中文翻译： LinkedIn —— Apache Kafka 的伸缩扩展能力 by 袁不语, 社会主义好, 无若, 开心613, fr000, Shawock.

我在转载时根据原文对译文有所改动。

如果数据是高科技的血脉的话，Apache Kafka 就是 LinkedIn 公司正在使用中的心脏系统。我们使用 Kafka 在多个系统之间传递各类数据，它几乎每一天都和各种服务器打交道。这个架构的复杂性，以及架构实践中采用的各种取舍，衍生出一种快速又可靠地传输的大块数据需求。

阅读全文