DataPipeline在大数据平台的数据流实践
Write-Ahead Logging机制着实就是焦点头脑在数据写入到数据库之前,它先写姑且文件,当一个批次竣事后,在将这个姑且文件更名为正式文件,确保每次提交后的正式文件同等性,假如半途呈现写入错误将姑且文件删除从头写入,相等于一个回滚。hive 的同步首要操作这种实现方法来担保同等性。起首它同步数据写入到HDFS姑且文件上,确保一个批次的数据正常后再重定名到正式文件傍边。正式的文件名会包括kafka offset,譬喻一个avro 文件的文件名为 xxxx+001+0020.avro ,这暗示当前文件中有offset 1 到 20 的20条数据。 4. Sink端之GreenPlum GreenPlum,是一个MPP架构的数据客栈,底层由多个postgres数据库作为计较节点,善于OLAP,作为BI数据客栈有着精采的机能。 1)DataPipeline对GreenPlum 同步实践以及优化计策 greenplum 支持多种数据加载方法,今朝我们行使copy的加载方法。 批量处理赏罚进步sink端写入服从,不举办insert 和 update 的操纵,一致行使 delete + copy 的方法批量加载; 多线程加预加载机制: 每个必要同步的表单独记录一个offset,当整个使命失败时可以分隔举办规复; 行使一个线程池打点加载数据的线程,每个同步的表单唯一个线程来举办加载数据,多表同时同步; (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |