加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Kafka 基本常识详解你不是知道的事

发布时间:2021-05-23 17:03:03 所属栏目:教程 来源:互联网
导读:初始Kafka 1、先容 Kafka 早先是由 Linkedin 公司回收 Scala 说话开拓的一个多分区、多副本且基于 ZooKeeper和谐的漫衍式动静体系,现己被捐募给 Apache 基金会

Kafka 早先是由 Linkedin 公司回收 Scala 说话开拓的一个多分区、多副本且基于 ZooKeeper和谐的漫衍式动静体系,现己被捐募给 Apache 基金会 。今朝 Kafka 已经定位为一个漫衍式流式处理赏罚平台,它以高吞吐、可耐久化、可程度扩展、支持流数据处理赏罚等多种特征而被普及行使。

2、行使场景

动静体系:Kafka 和传统的动静体系(动静中间件)都具备体系解耦、冗余存储、流量削峰、缓冲、异步通讯、扩展性、可规复性等成果。与此同时,Kafka还提供了大大都动静体系难以实现的动静次序性保障以及回溯斲丧的成果。

存储体系:Kafka把动静耐久化到磁盘,对比于其他基于内存存储的体系而言,有用地低落了数据丢失的风险。也正是得益于 Kafka 的动静耐久化成果和多副本机制,我们可以把 Kafka 作为恒久的数据存储体系来行使,只必要把对应的数据保存计策配置为 “永世” 或启用主题的日记压缩成果即可。

流式处理赏罚平台:Kafka 不只为每个风行的流式处理赏罚框架里提供了靠得住的数据来历,还提供了一个完备的流式处理赏罚类库,好比窗口、毗连、互换和聚合等衷耘噘纵。

3、根基观念

Kafka系统架构包罗多少 「Producer」,「Broker」,「Consumer」以及一个ZooKeeper集群。

ZooKeeper:是 Kafka 用来认真集群元数据的打点、节制器的推举等操纵的。

Producer:出产者,发送动静的一方。认真建设动静,然后将其投递到 Kafka 中。

Consumer:斲丧者,吸取动静的一方。毗连到 Kafka 后吸取动静,并举办响应的营业逻辑处理赏罚。

Broker:处事署理节点。对付 Kafka 而言,Broker 可以简朴地看作一个独立的 Kafka 处事节点或 Kafka 处究竟例。大大都环境下也可以将 Broker 看作一台 Kafka 处事器,条件是这台处事器上只陈设了一个 Kafka 实例。一个或多个Broker 构成了一个 Kafka 集群。

整体 Kafka 系统或许是由上面几部门组成。除此之外,尚有两个出格重要的观念:主题(Topic)和分区(Partition)

主题:Kafka 中的动静以主题为单元举办归类,出产者认真将动静发送到特定的主题(发送到 Kafka 集群中的每一条动静都要指定一个主题),而斲丧者认真订阅主题并举办斲丧。

分区:主题是一个逻辑上的观念。还可以细分为多个分区,一个分区只属于单个主题,许多时辰也会把分区称为主题分区(Topic-Partition)。统一主题下的差异分区包括的动静是差异的,分区在存储层面可以看作一个可追加的「日记文件」,动静在被追加到分区日记文件的时辰城市分派一个特定的偏移量(offset)。offset 是动静在分区中的独一标识,Kafka 通过它来担保动静在分区内的次序性,不外offset并不超过分区,也就是说,Kafka 担保的是分区有序而不是主题有序。

Kafka 为分区引入了多副本(Replica) 机制,通过增进副本数目可以晋升容灾手段。

统一分区的差异副本中生涯的是沟通的动静(在统一时候,副本之间并非完全一样),副本之间是“ 一主多从”的相关,个中 leader 副本认真处理赏罚读写哀求 ,follower 副本只认真与 leader 副本的动静同步。副本处于差异的 broker 中 ,当 leader 副本呈现妨碍时,从 follower 副本中从头推举新的 leader 副本对外提供处事。

「Kafka 通过多副本机制实现了妨碍的自动转移,当 Kafka 集群中某个 broker 失效时如故能担保处事可用 。」

在我们继承相识 Kafka 之前,我们还必要大白几个要害词:

AR(Assigned Replicas):分区中全部副本统称为 AR

ISR(In-Sync Replicas):全部与 leader 副本保持必然水平同步的副本(包罗 leader 副本在内)构成 ISR。ISR 荟萃是 AR 荟萃中的一个子集 。动静会先发送到 leader 副本,然后 follower 副本才气从 leader 副本中拉打动静举办同步,同步时代内follower 副内情对付 leader 副本而言会有必然水平的滞后 。

OSR(Out-of-Sync Replicas):与 leader 副本同步滞后过多的副本(不包罗 leader 副本)构成 OSR

由以上相关我们可以得出一个公式:AR=ISR+OSR

HW(High Watermark):俗称高水位,是用来标识一个特定的动静偏移量(offset),斲丧者只能拉取到这个 offset 之前的动静

LEO(LogStartOffset):下一条待写入动静的 offset

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读