详解ETL器材十大必备的成果特征
概述 Kettle是一款海外开源的ETL器材,纯java编写,可以在Window、Linux、Unix上运行。 说白了就是,很有须要去领略一样平常ETL器材必备的特征和成果,这样才更好的把握Kettle的行使。本日首要先描写ETL器材的通用成果。 ETL器材的成果之一:毗连 任何ETL器材都应该有手段毗连到范例普及的数据源和数据名目。对付最常用的相关型数据库体系,还要提供当地的毗连方法(如对付Oracle的OCI),ETL应该能提供下面最根基的成果:
ETL器材的成果之二:平台独立 一个ETL器材应该能在任何平台下乃至是差异平台的组合上运行。一个32位的操纵体系也许在开拓的初始阶段运行很好,可是当数据量越来越大时,就必要一个更强盛的操纵体系。另一种环境,开拓一样平常是在Windows或 Mac机上运行的。而出产情形一样平常是Linux体系或集群,你的ETL办理方案应该可以无缝地在这些体系间切换。 ETL器材的成果之三:数据局限 一样平常ETL能通过下面的3种方法来处理赏罚大数据。
Kettle是基于Java的办理方案,可以运行在任何安装了Java假造机的计较机上(包罗Windows、Linux和Mac)。转换里的每个步调都是以并发的方法来执行,而且可以执行多次,这样加速了处理赏罚速率。 Kettle在运行转换时,按照用户的配置,可以将数据以差异的方法发送到多个数据流中(有两种几本发送方法:分发和复制)。分发相同与分发扑克牌,以轮番的方法将每行数据只发给一个数据流,复制是将每行数据发给全部数据流。 为了更准确节制数据,Kettle还行使了分区模式,通过度区可以将统一特性的数据发送到统一个数据流。这里的分区只是观念上相同于数据库的分区。 Kettle并没有针对数据库分区有什么成果。 ETL器材的成果之四:计划机动性 一个ETL器材应该留给开拓职员足够的自由度来行使,而不能通过一种牢靠的方法来限定用户的缔造力和计划的需求。ETL器材可以分为基于进程的和基于映射的。 基于映射的成果只在源数据和目标数据之间提供了一组牢靠的步调,严峻限定了计划事变的自由度。基于映射的器材一样平常易于行使,可快速上手,可是对付更伟大的使命,基于进程的器材步崆组好的选择。 行使Kettle这样基于进程的器材,按照现实的数据和大概需求,可以建设自界说的步协调转换。 ETL器材的成果之五:复用性 计划完的ETL转换应该可以被复用,这长短常重要的。复制和粘贴已经存在的转换步调是最常见的一种复用,但这不是真正意义上的复用。 Kettle里有一个映射(子转换)步调,可以完成转换的复用,该步调可以将一个转换作为其他转换的子转换。其它转换还可以在多个功课里多次行使,同样功课也可觉得其他功课的子功课。 ETL器材的成果之六:扩展性 各人都知道,险些全部的ETL器材都提供了剧本,以编程的方法来办理器材自己不能办理的题目。其它,尚有少数几款ETL器材可以通过API或其他方法为器材增进组件。行使剧本说话写函数,函数可以被其他转换或剧本挪用。 Kettle提供了上述的全部成果。Java剧本步调可以用来开拓Java剧本,把这个剧本生涯为一个转换,再通过映射(子转换)步调,又可以变为一个尺度的可以复用的函数。现实上,并不限于剧本,每个转换都可以通过这种映射(子转换)方法来复用,犹如建设了一个组件。Kettle在计划上就是可扩展的,它提供了一个插件平台。这种插件架构应承第三方为Kettle平台开拓插件。 Kettle里的全部插件,纵然是默认提供的组件,现实上也都是插件。内置的第三方插件和Pentaho插件的独一区别就是技能支持。假设你买了一个第三方插件(譬喻一个SugarCRM的毗连),技能支持由第三方提供,而不是由Pentaho提供。 ETL器材的成果之七:数据转换 ETL项目很大一部门事变都是在做数据转换。在输入和输出之间,数据要颠末校验、毗连、脱离、归并、转置、排序、归并、克隆、排重、过滤、删除、替代可能其他操纵。 在差异机构、项目息争决方案里,数据转换的需求都大不沟通,以是很难说清一个ETL器材起码应该提供哪些转换成果。可是呢,常用的ETL器材(包罗Kettle)都提供了下面一些最根基的整合成果:
ETL器材的成果之八:测试和调试 测试凡是分为黑盒测试(也叫成果测试)和白盒测试(布局测试)。 黑盒测试,ETL转换就被以为是一个黑盒子,测试者并不相识黑盒子的成果,只知道输入和祈望的输出。 白盒测试,要求测试者知道转换内部的事变机制并依此计划测试用例来搜查特定的转换是否有特定的功效。 调试现实是白盒测试中的一部门,通过高度可以闪开拓者或测试者一步一步地运行一个转换,并找出题目的地址。 ETL器材的成果之九:血统说明和影响说明 任何ETL器材都应该有一个重要的成果:读取转换的元数据,它是提取由差异转换组成的数据流的信息。 血统说明和影响说明是基于元数据的两个相干的特征。 血统是一种回溯性的机制,它可以查察到数据的来历。 影响说明是基于元数据的另一种说明要领,可以说明源数据对随后的转换以及方针表的影响。 ETL器材的成果之十:日记和审计 数据客栈的目标就是要提供一个精确的信息源,因此数据客栈里的数据应该是靠得住的、可信赖的。为了担保这阵靠得住性,同时担保可以记录下全部的数据转换操纵,ETL器材应该提供日记和审计成果。 日记可以记录下在转换进程中执行了哪些步调,包罗每个步调开始和竣事时刻戳。 审计可以追踪到对数据做的全部操纵,包罗读行数、转换行数、写行数。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |