加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

为什么你的大数据项目刹时就”凉”了?

发布时间:2018-04-17 13:39:35 所属栏目:大数据 来源:站长网
导读:企颐魅正全力在产物中陈设大数据,这一点是毋庸置疑的。可是,按照Gartner在2016年下半年宣布的消息稿:只有15%的企业将其大数据项目陈设到出产中。Gartner在选词时很是审慎,这并不料味着剩下的企业没有实践,可能数据科学家没有发明行使大数据技能的上风

      企颐魅正全力在产物中陈设大数据,这一点是毋庸置疑的。可是,按照Gartner在2016年下半年宣布的消息稿:只有15%的企业将其大数据项目陈设到出产中。“Gartner在选词时很是审慎,这并不料味着剩下的企业没有实践,可能数据科学家没有发明行使大数据技能的上风,只是剩下的85%的项目并没有真正投入出产。

500531985_wx

题目不在于穷乏大数据说明可能是大量的数据科学尝试。真正的挑衅是缺乏大数据自动化手段,以便将尝试版本从沙箱推入成果一切的出产情形中。

大大都人以为说明出产就是调解集群。虽然,可以编写一个sqoop剧本并将表格放入一次。可是,在不影响源体系的环境下多次实现则是一个挑衅。然后,必需确保构建的数据管道在由处事级别协议(SLA)配置的时刻范畴内提供数据。另外,数据模子必要针对用户当前正在行使的器材(如Tableau,Qlik等)举办优化,以到达用户所祈望的相应手段。

在Hadoop和Spark之上行使器材举办大量的全力和改造以对大型数据集举办快速原型计划。但原型是一回事,建设天天运行而不产生妨碍的数据事变流程,可能在数据流功课失败时自动启用规复,又是其它一回事。

本文作者说明白五大大数据项目短命最常见的技能缘故起因:

1、无法快速加载数据以满意SLA

固然像sqoop这样的器材支持数据读取的并行化以从传统数据源获取数据到数据湖,但必要专家来使其正常事变。怎样分别数据?要运行几多个容器等题目都必要专家给出吻合的办理方案。假如无法正确处理赏罚并行数据的读取,则一个小时就可完成的使命乃至必要10到20倍的时刻,由于大大都人不知道怎样正确调解。

2、不能慢慢加载数据以满意SLA

大大都企业并未将整个操纵转移到大数据情形中。他们从现有的操纵体系移动数据以执行新的说明或呆板进修,这意味着必要在新数据达到时继承加载。题目是这些情形不支持添加,删除或插入的观念,这意味着必需从头加载整个数据集(请参阅上面的第1点),不然必需环绕一次变动捕捉题目编写代码。

3、不能以交互方法提供对数据陈诉的会见权限

想象一下,假若有1000位贸易智能说明师,他们都不想行使您的数据模子,由于他们必要很长时刻才气查询。这是Hadoop的一个经典题目,也是很多公司仅行使Hadoop举办预处理赏罚和应用特定呆板进修算法,但随后将最终数据集移回传统数据客栈以供BI器材行使的缘故起因。无论怎样,这个进程又为乐成完成大数据项目增进了难度。

4、不能从测试迁徙到出产

很多企业可以或许确定沙箱情形中数据科学家的新看法的潜力。一旦他们确定采用新的说明要领,就必要从沙盒转移到出产情形。从开拓转移到出产是一个完备的起落和换挡操纵,凡是是手动完成的。固然它在开拓集群上运行精采,但此刻沟通的数据管道必需在出产集群上从头优化。这种调解每每必要大量的返工才气有用执行。假如开拓情形与出产情形有任何差异,则环境尤其伟大。

5、不能打点端到端的出产事变量

大大都企业都将留意力齐集在器材上,因此他们的数据说明师和科学家可以更轻松地辨认新的要领。可是,他们没有投资相同的器材来运行出产情形中的数据事变流程,因此不得不担忧启动、停息和从头启动进程,还必需担忧确保功课的容错性,处理赏罚关照以及和谐多个事变流以停止“斗嘴”。

由于上述五大技能缘故起因,导致许多大数据项目并没有准期与我们晤面。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读