资深措施员多年总结：解密Kafka吞吐量高的缘故起因

发布时间：2019-07-26 21:49:12 所属栏目：建站来源：ThinkInDeep

导读：众所周知kafka的吞吐量比一样平常的动静行列要高，号称the fastest，那他是怎样做到的，让我们从以下几个方面说明一下缘故起因。出产者（写入数据）出产者（producer）是认真向Kafka提交数据的，我们先说明这一部门。 Kafka会把收到的动静都写入到硬盘中，它绝对

副问题[/!--empirenews.page--]

众所周知kafka的吞吐量比一样平常的动静行列要高，号称the fastest，那他是怎样做到的，让我们从以下几个方面说明一下缘故起因。

出产者（写入数据）
出产者（producer）是认真向Kafka提交数据的，我们先说明这一部门。
Kafka会把收到的动静都写入到硬盘中，它绝对不会丢失数据。为了优化写入速率Kafak回收了两个技能，次序写入和MMFile。

次序写入

由于硬盘是机器布局，每次读写城市寻址->写入，个中寻址是一个“机器举措”，它是最耗时的。以是硬盘最“厌恶”随机I/O，最喜好次序I/O。为了进步读写硬盘的速率，Kafka就是行使次序I/O。

资深措施员多年总结：解密Kafka吞吐量高的缘故起因

上图就展示了Kafka是怎样写入数据的，每一个Partition着实都是一个文件，收到动静后Kafka会把数据插入到文件末端（虚框部门）。
这种要领有一个缺陷——没有步伐删除数据，以是Kafka是不会删除数据的，它会把全部的数据都保存下来，每个斲丧者（Consumer）对每个Topic都有一个offset用来暗示读取到了第几条数据。

资深措施员多年总结：解密Kafka吞吐量高的缘故起因

上图中有两个斲丧者，Consumer1有两个offset别离对应Partition0、Partition1（假设每一个Topic一个Partition）；Consumer2有一个offset对应Partition2。这个offset是由客户端SDK认真生涯的，Kafka的Broker完全无视这个对象的存在；一样平常环境下SDK会把它生涯到zookeeper内里。(以是必要给Consumer提供zookeeper的地点)。
假如不删除硬盘必定会被撑满，以是Kakfa提供了两种计策来删除数据。一是基于时刻，二是基于partition文件巨细。详细设置可以参看它的设置文档。

Memory Mapped Files

即即是次序写入硬盘，硬盘的会见速率照旧不行能追上内存。以是Kafka的数据并不是及时的写入硬盘，它充实操作了当代操纵体系分页存储来操作内存进步I/O服从。
Memory Mapped Files(后头简称mmap)也被翻译成内存映射文件，在64位操纵体系中一样平常可以暗示20G的数据文件，它的事变道理是直接操作操纵体系的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操纵会被同步到硬盘上（操纵体系在恰当的时辰）。

资深措施员多年总结：解密Kafka吞吐量高的缘故起因

通过mmap，历程像读写硬盘一样读写内存（虽然是假造机内存），也不必体谅内存的巨细有假造内存为我们兜底。
行使这种方法可以获取很大的I/O晋升，省去了用户空间到内核空间复制的开销（挪用文件的read会把数据先放到内核空间的内存中，然后再复制到用户空间的内存中。）也有一个很明明的缺陷——不行靠，写到mmap中的数据并没有被真正的写到硬盘，操纵体系会在措施主动挪用flush的时辰才把数据真正的写到硬盘。Kafka提供了一个参数——producer.type来节制是不是主动flush，假如Kafka写入到mmap之后就当即flush然后再返回Producer叫同步(sync)；写入mmap之后当即返回Producer不挪用flush叫异步(async)。
mmap着实是Linux中的一个函数就是用来实现内存映射的，感谢Java NIO，它给我提供了一个mappedbytebuffer类可以用来实现内存映射（以是是沾了Java的光才可以云云神速和Scala不要紧！！）

斲丧者（读取数据）
Kafka行使磁盘文件还想快速？这是我看到Kafka之后的第一个疑问，ZeroMQ完全没有任那里事器节点，也不会行使硬盘，凭证原理说它应该比Kafka快。然则现实测试下来它的速率照旧被Kafka“吊打”。“一个用硬盘的比用内存的快”，这绝对违背知识；假如这种工作产生声名——它作弊了。
没错，Kafka“作弊”。无论是次序写入照旧mmap着实都是作弊的筹备事变。

怎样进步Web Server静态文件的速率 ?

细心想一下，一个Web Server传送一个静态文件，怎样优化？谜底是zero copy。传统模式下我们从硬盘读取一个文件是这样的

资深措施员多年总结：解密Kafka吞吐量高的缘故起因

先复制到内核空间（read是体系挪用，放到了DMA，以是用内核空间），然后复制到用户空间(1,2)；从用户空间从头复制到内核空间（你用的socket是体系挪用，以是它也有本身的内核空间），最后发送给网卡（3、4）。

资深措施员多年总结：解密Kafka吞吐量高的缘故起因

Zero Copy中直接从内核空间（DMA的）到内核空间（Socket的），然后发送网卡。
这个技能很是广泛，The C10K problem 内里也有很具体的先容，Nginx也是用的这种技能，轻微搜一下就能找到许多资料。

Java的NIO提供了FileChannle，它的transferTo、transferFrom要领就是Zero Copy。

Kafka是怎样耍赖的?

想到了吗？Kafka把全部的动静都存放在一个一个的文件中，当斲丧者必要数据的时辰Kafka直接把“文件”发送给斲丧者。这就是法门地址，好比：10W的动静组合在一路是10MB的数据量，然后Kafka用相同于发文件的方法直接扔出去了，假如斲丧者和出产者之间的收集很是好（只要收集轻微正常一点10MB基础不是事。。。家里上网都是100Mbps的带宽了），10MB也许只必要1s。以是谜底是——10W的TPS，Kafka每秒钟处理赏罚了10W条动静。
也许你说：不行能把整个文件发出去吧？内里尚有一些不必要的动静呢？是的，Kafka作为一个“高级作弊分子”天然要把作弊做的有逼格。Zero Copy对应的是sendfile这个函数（以Linux为例），这个函数接管

out_fd作为输出（一样平常实时socket的句柄）

in_fd作为输入文件句柄

off_t暗示in_fd的偏移（从那边开始读取）

size_t暗示读取几多个

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？

资深措施员多年总结：解密Kafka吞吐量高的缘故起因

出产者（写入数据） 出产者（producer）是认真向Kafka提交数据的，我们先说明这一部门。 Kafka会把收到的动静都写入到硬盘中，它绝对不会丢失数据。为了优化写入速率Kafak回收了两个技能，次序写入和MMFile。

次序写入

Memory Mapped Files

怎样进步Web Server静态文件的速率 ?

Kafka是怎样耍赖的?

出产者（写入数据）
出产者（producer）是认真向Kafka提交数据的，我们先说明这一部门。
Kafka会把收到的动静都写入到硬盘中，它绝对不会丢失数据。为了优化写入速率Kafak回收了两个技能，次序写入和MMFile。