粉碎二八法则!每个数据科学家都得会一点SparkMagic
闻名的帕累托法例,即80/20定律,汇报我们:缘故起因和功效、投入和产出、全力和酬金之间存在着无法表明的不服衡。纵然是21世纪最具吸引力的事变,数据科学依然逃不脱这必然律。 贸易数据科学家80%的时刻都花在查找、洗濯和筹备数据上,这是数据科学家事变中服从最低也是最可骇的部门。互联网为怎样冲破数据科学的80/20定律提供了很多的意见,但却生效甚微。 着实,数据科学家出产率低下的首要缘故起因在于数据筹备事变的双重性: 快速会见、归并和聚合存储在企业数据湖中的大数据 试探和可视化数据中具有伟大依靠相关的Python数据包中的数据和统计信息 大数据大多长短布局化的,经常存储在具有企业打点和安详限定的出产情形中。快速会见数据必要昂贵的漫衍式体系,这些体系由IT齐集打点,必需与其他数据科学家和说明师共享。 Spark是用于漫衍式数据湖中处理赏罚数据的行业黄金尺度。可是,要以经济高效的方法行使Spark集群,乃至应承多租户,就很难满意单个需求和依靠相关。漫衍式数据基本架构的行业趋势是姑且集群,这使得数据科学家越发难以陈设和打点他们的Jupyter Notebook情形。 很大都据科学家都在高规格条记本电脑长举办当地事变,可以越发轻松地安装和耐久生涯Jupyter Notebook情形。那么这些数据科学家们怎样将其当地开拓情形与出产数据湖中的数据接洽起来?凡是,他们行使Spark实现了csv文件,并从云存储节制台下载了它们。 从云存储节制台手动下载csv文件既不高效,也没有出格强盛的成果。假如能以终端用户友爱且透明的方法无缝地将当地的Jupyter Notebook与长途集群毗连起来,岂不是更好吗? 学好SparkMagic,冲破数据科学二八法例的时刻到了! 合用于Jupyter NoteBook的SparkMagic Sparkmagic是一个通过Livy REST API与Jupyter Notebook中的长途Spark聚集举办交互事变的项目。它提供了一组Jupyter Notebook单位把戏和内核,可将Jupyter酿成用于长途集群的集成Spark情形。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |