DataOps:现代数据管道的精髓
有很多器材可以支持开拓和陈设的流程。你可以选择从新开始构建新的应用措施或用例,可能修改现有的用例。Git是一个很好的器材,它用于存储代码和节制版本,而Jenkins是支持CI/CD流程(即归并和陈设代码)的开源器材。在数据天下中,有很多针对特定范例管道的开拓和陈设器材,包罗数据客栈开拓(即数据客栈自动化器材)和建设呆板进修模子。 编排。DataOps的焦点和魂灵在于编排。在管道中移动,我们必要具有浩瀚依靠相关的伟大使命事变流来处理赏罚和富厚数据。一些闻名的数据编排器材如Airflow,一些开源项目如,DataKitchen,StreamSets和Microsoft Azure的DataFactory。一个好的编排器材可以很好的和谐数据开拓项目标全部四个构成部门:代码,数据,技能和基本架构。在DevOps情形中,营业流程器材行使容器编排框架(譬喻Kubernetes)来激活和和谐容器以支持这些流程(如开拓、测试、staging和出产情形)。 在数据天下中,营业流程器材不只提供了新的开拓/测试/出产情形。它们还认真在管道中差异阶段之间移动数据,并实例化对数据举办操纵的数据器材。他们一边事变,一边监控进度,还要将错误归纳到吻合的界面并发出警报。譬喻,在云情形中,DataOps编排器材也许会执行以下操纵: 配置平台(譬喻数据库,存储容量,会见节制列表,机能打点器材,数据目次,日记处事器和监督器材)。 触发收罗功课。监督功课(批处理赏罚或流式传输),检测妨碍并从中规复,监督容量并在必要时触发自动缩放。 触发数据质量功课。说明和验证数据,搜查血缘。 快速启动数据转换。一旦收罗的数据集得到了通过康健搜查,编排器材也许会启动转换代码来归并,名目化和聚合数据元素。 触发BI器材。以将数据下载到其本身的列式存储中,或发送一个关照,奉告已筹备好举办查询和说明的新数据集。 监控事变流程。乐成完成事变流程后,措施会向恰当的职员发出关照,并开释基本架构。 一连测试和监控。 DataOps情形的最后构成部门是测试情形。抱负环境下,团队在开拓任何代码或成果之前就写好了测试。然后,营业流程器材在管道中的每个阶段之前和之后运行测试。在启动和集成时,在上游捕捉错误和题目可以节减大量时刻,款子和贫困。诸如Great Expectations和ICEDQ之类的器材就支持一连的测试情形。尚有一些产物提供对器材,应用措施和基本架构的一连监控,以确保最佳的正常运行时刻和机能。 Unravel就是面向大数据处理赏罚的应用措施机能打点(APM)产物之一。 行使测试作为根基构建块的开拓团队的要比那些不行使的团队开拓速率更快。对付大大都想在开始之前不举办测试的环境下潜入项目标开拓职员来说,这早先是违背直觉的。可是一旦测试到位,开拓职员就可以在发明难以办理的代码之前敏捷发明题目。通过一连的测试和监控,团队可以设定机能方针,权衡输出并不绝改进其周期时刻和质量。 结论 DataOps的方针是为了使数据管道和应用措施的开拓变得越发严谨,可重用和自动化。 DataOps可以辅佐数据团队从数据孤岛,以及被积存和无休止的质量节制题目缠身的状况转变为火速,自动化和加快的数据供给链,而且它能一连改进并为企业带来代价。 译者先容 Grace,措施员,研究生结业于SUNY at Stony Brook,今朝供职于Linktime Cloud Company,对大数据技能以及数据可视化技能感乐趣。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |