加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Kafka作为大数据的核心技术,你了解多少?

发布时间:2019-05-04 04:39:27 所属栏目:教程 来源:千锋大数据开发学院
导读:Kafka作为大数据最焦点的技能,作为一名技能开拓职员,假如你不懂,那么就真的out了。DT期间的快速成长离不开kafka,以是相识kafka,应用kafka就成为一种必需。 什么是kafka?Kafka是一个漫衍式流平台,用于宣布和订阅记录流。Kafka可以用于容错存储。Kafka

Kafka作为大数据最焦点的技能,作为一名技能开拓职员,假如你不懂,那么就真的“out”了。DT期间的快速成长离不开kafka,以是相识kafka,应用kafka就成为一种必需。

Kafka作为大数据的焦点技能,你相识几多?

什么是kafka?Kafka是一个漫衍式流平台,用于宣布和订阅记录流。Kafka可以用于容错存储。Kafka将主题日记分区复制到多个处事器。Kafka的计划目标是为了让你的应用能在记录天生后当即就能处理赏罚。Kafka的处理赏罚速率很快,通过批处理赏罚和压缩记录有用地行使IO。Kafka会对数据流举办解耦。Kafka用于将数据流到数据湖、应用和及时流说明体系中。Kafka首要应用于及时信息流的大数据网络可能及时说明(可能两者兼有)。Kafka既可觉得内存微处事提供耐久性处事,也可以用于向伟大变乱流体系和IoT/IFTTT式自动化体系反馈变乱。

今朝,天下500强企业有三分之一都在行使kafka,而使其云云风行的缘故起因有以下几点:

其一、kafka速率快。

Kafka基于zero copy原则,深度依赖操纵体系内核实现快速移动数据,能将数据记录分批处理赏罚。这些批次数据可以通过端到端的方法从出产者到文件体系(Kafka主题日记)再到斲丧者。批处理赏罚能实现更高效的数据压缩并镌汰I / O耽误。Kafka将不行变的提交日记写入持续磁盘,从而停止了随机磁盘会见和磁盘寻道速率慢的题目。Kafka支持增进分区举办横向扩展。它将主题日记分成几百个(也许稀有千个)分区漫衍到数千个处事器。这种方法可以让Kafka承载海量负载。

其二、Kafka支持多说话

客户端和处事器之间的Kafka通讯行使基于TCP的线路协议,该协议是版本化和文档化的。Kafka理睬保持对老客户端的向后兼容性,并支持多种说话,包罗C#,Java,C,Python,Ruby等多种说话。Kafka生态体系还提供REST署理,可通过HTTP和JSON轻松集成。Kafka还通过Kafka的融合模式注册(ConfluentSchema Registry)支持Avro模式。Avro和模式注册应承客户以多种编程说话建造和读取伟大的记录,并应承记录的变革。

其三、kafka应用普及

Kafka支持构建及时流数据管道,支持内存微处事(好比actors,Akka,Baratine.io,QBit,reactors,reactive,,Vert.x,RxJava,SpringReactor),支持构建及时流应用措施,举办及时数据说明,转换,相应,聚合、插手及时数据流以及执行CEP。

其四、Kafka可扩展的动静存储

Kafka是一个很好的记录或信息存储体系。Kafka就像一个提交日记存储和复制的高速文件体系。这些特点使Kafka合用于各类应用场所。写入Kafka主题的记录会耐久生涯到磁盘并复制到其他处事器以实现容错。因为此刻磁盘速率快并且相等大,以是这种方法很是有效。Kafka出产者可以守候确认,以是动静是耐久的,由于出产者在复制完成之前不会完成写入操纵。Kafka磁盘布局可以很好地扩展。磁盘在大批量流式传输时具有很是高的吞吐量。另外,Kafka客户端和斲丧者可以节制读取位置(偏移量),这应承在呈现重要错误(即修复错误和重放)时重播日记等用例。并且,因为偏移量是凭证每个斲丧者群体举办跟踪的,以是斲丧者可以很是机动地重播日记。

Kafka可以让吻合的数据以吻合的情势呈此刻吻合的处所。Kafka的做法是提供动静行列,让出产者单往行列的末端添加数据,让多个斲丧者从行列内里依次读取数据然后自行处理赏罚。云云便捷的模式,肯定使得kafka在各个规模的应用不绝的增强。

DT期间,对付kafka的应用将不绝的深入,将来不只仅是天下500强企业会用到kafka,任何一个企业都将行使这一便捷的器材来实现大数据的机关。技能老是在不绝的更新和成长,kafka也在不绝的更细迭代,信托,将来企业的大数据机关,必将因kafka而越发便捷。

【编辑保举】

  1. Kafka解惑之时刻轮 (TimingWheel)
  2. 行使Scala开拓Apache Kafka的TOP 20大好用实践
  3. Kafka集群内复制成果深入分解
  4. 怎样将kafka中的数据快速导入Hadoop?
  5. Apache Kafka与Spark Streaming的两种整合要领及其优弱点
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读