【PPT+实录】搜狗资深工程师申贤强:大数据处理赏罚和同一使命调治系
先讲讲搜狗数据说明的架构,数据说明流程以及此刻数据说明师在做数据说明的时辰所面对的题目,以及对使命打点和按时运行的各类需求,引出第二个体系,同一调治体系,对付同一调治体系我们讲他的宿世此生,以及此刻的框架图。 搜狗数据说明平台架构图。 原始日记及数据传输、存储、数据器材说明尚有使命打点层和前端页面展示层。传输层有及时和离线两个部门,对付离线数据传输我们走的DTE,这种数据直接存储于HDFS,在线层,及时直接入数据客栈。 对付数据客栈层,我们对付原始客栈通过数据筛选洗濯,相等于ETL流程,天生精简的custom数据客栈,数据就位之后,数据器材层,通例器材在搜狗,Hive,pig,有HbaseNoSql,类Sql Phoenix和Spark Sql,搜狗也支持即席查询,即漫衍式SQL,有presto和impala。 当数据说明测试上线之后我们必要的是什么?按时使命打点体系,支持依靠支持按时,将数据功效揭示给搜狗网页的产物,及时流量体系、报表以及Search Tool和奥特曼营业。 ??? 数据说明的流程。 根基上分为这几个部门,收罗,数据客栈、计较、数据库、入库,前端页面。将上面的进程举办细化,营业方发生数据,数据要存入存储平台,数据说明誊写数据,将功效反馈。 ??? 数据说明师面对的题目,与前端以及与产物的各类雷同。与测试司理雷同排期,数据说明师要做的工作有也许体谅这个数据是不是已经就位,数据客栈的建造是不是已经完成,数据是不是有一再,功效是不是会造成功效不正确,如故必要体谅是什么? 这个使命必要陈设提友好况,产物最终上线数据说明师面对的一个题目: 第一,这个数据禁绝确; 第二,机能有题目,查询迟钝; 第三,没有出来功效,缘故起因提交机挂了,有也许数据说明师面对的题目,以是数据说明师自己较量苦闷的。 ??? 以是整体说,数据说明整体计划的流程和进程是较量伟大的,无法要求数据说明师一小我私人所有包围全部的工作,必要平台提供一些器材或体系将数据说明师的事变简化,让数据说明师用心写流程,下面我们要先容怎样去提供一些器材,和我们的使命打点体系。 ??? 我们做器材和体系的方针简化流程,低落人力开拓与运维本钱,进步开拓服从进步资源操作率。 ??? 假如做到这一点,起首看,数据说明师在写SQL查询之前必要做的筹备事变有哪些?原始日记导入,Hive天生default数据客栈必要做数据洗濯,即ETL流程。起首看原始日记的导入。 ??? 在搜狗早期的框架,或许的布局是这样,因为汗青缘故起因,存储和计较集群是疏散,我们必要举办一次数据传输,这种数据传输会造成它的欠好的处所,一,不是及时入Hive,这是离线传输体系。第二,数据的名目是线上处事器牢靠的名目,以是它的收罗频率以及它的名目是牢靠,对我们行使会造成必然的影响。 它的弱点: ???
??? (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |