数据湖不仅仅是大数据
数据湖不只用于“大数据”,并且组织比以往拥有更多的机遇将它们纳入数据仓库。 行业专家最近写了一篇文章,揭破了关于数据湖架构、数据湖界说和数据湖说明的常见误区。其文章名为“什么是数据湖?必要来停止最大的迷思。”在那篇文章中,构建了有关数据湖及其在企业数据计策中的合用范畴的当前对话。对付那些但愿从数据湖中获取代价的人来说,因为参谋和供给商的提议彼此抵牾,这个主题素来是令人狐疑和不透明的。 一个也许出格令人狐疑的规模是人们以为数据湖仅用于“大数据”。假如花时刻阅读湖泊上的资料,就会以为只有一种范例。人们将数据湖描写为复杂的、无所不包的实体,旨在容纳全部常识。好动静是,湖泊不只仅用于“大数据”,并且比以往任何时辰都有更多的机遇将其纳入数据仓库。 差异范例的数据湖 就像大天然一样,湖泊具有各类差异的外形和巨细。每个都有天然状态,凡是反应数据生态体系,就像天然界中反应鱼类,鸟类或其他生物的生态系同一样。 不幸的是,“大数据”角度给人们的印象是湖泊仅用于“里海”局限的数据事变。这无疑使行使数据湖变得令人生畏。因此,以云云大的角度来描写事物使得那些可以从中受益的人们无法靠近湖泊的观念。这里有一些数据湖的例子。 •巨大的“里海”:就像里海是一个洪流域一样,这种范例的湖泊也是一个复杂而普及的,种类繁多的数据集。普及网络的各类数据反应了整个企业的信息。这就是大大都数据湖事变的框架。 •暂且的“湖泊”:就像戈壁中可以有小的姑且湖泊一样,短暂的短暂存在。它们可以用于项目、试点、PoC或点办理方案,而且它们的打开与封锁速率一样快。 •规模“项目”:这些湖泊与姑且数据湖泊一样,凡是偏重于特定的常识规模。可是,与姑且湖差异,该湖将跟着时刻的推移而一连存在。这些也也许是“浅”的,这意味着它们也许专注于狭小的数据域,譬喻媒体、交际、Web说明、电子邮件或相同的数据源。 最近,与客户相助建设了“域”型湖泊。该湖会将Adobe变乱数据生涯到AWS,以支持企业Oracle Cloud情形。为什么选择AWS to Oracle?对付客户的OracleBI情形,这是一种高效且具有本钱效益的数据耗损模式,尤其是思量到行使AWS Lake和Athena作为湖内容的按需查询处事的火速性和经济性。 通过计划,全部范例的湖泊都应回收抽象技能,以最洪流平地低落风险并为您提供更大的机动性。并且,它们的布局应易于行使,而与巨细无关。这确保了数据科学家,营业用户或说明师所行使的湖泊都具有易于数据行使的布局化情形。 数据湖入门 成为乐成的早期回收者意味着采纳营业代价要领而不是技能要领。当组织思量怎样入门时,这里有一些提醒: •重点:探求机遇,在个中陈设“姑且”或“项目”办理方案。这将确保您低落风险并降服技能和组织挑衅,以便您的团队可以对湖泊成立信念。 •热情:确保内部有一位“传道者”或“建议者”,他们对组织的办理方案和回收布满热情。 •简朴:附和简朴性和火速性,使职员、流程和技能选择贯串于此。缺乏伟大性不该被看作是缺陷,而是殷勤的计划的副产物。 •狭义:通过限定湖泊来领略数据(譬喻从ERP、CRM、贩卖点、市场营销或告白数据中导出)来使范畴狭小且界声名晰。此阶段的数据素养将辅佐您相识有关数据布局、提取、管理,质量和测试的事变流。 •尝试:将数据湖与当代BI和Tableau、Power BI、Amazon Quicksight或Looker等说明器材配对。这将使非技能用户有机遇通过湖泊举办尝试和试探数据会见。这使组织可以与其他用户群互动,以评估机能瓶颈,发明改造机遇,与任何现有EDW体系(或其他数据体系)的也许链接以及其他候选数据源。 存眷营业代价而不是技能,可觉得组织提供一个在整体数据和说明计策的框架内举办事变的机遇。这样可以进步速率,并辅佐组织实现数据湖方针并权衡营业绩效的进度。这也导致了完美的共享术语、最佳实践以及对成立更好平台的投资。 延长阅读:
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |