加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Presto怎样带来最好的大数据说明师

发布时间:2018-11-16 00:31:19 所属栏目:大数据 来源:解道
导读:假如您的地位相同于Data Analyst,VP Analytics,说明主管等,您就知道您的脚色在公司中的重要性。 你开始事变时,谋面对无数的陈诉。打点层集会会议正在召开,客户的数据由您的组织打点,他们但愿得到有关其基于云的音乐流应用的回收陈诉。为此,您必要行使包

大数据2

假如您的地位相同于Data Analyst,VP Analytics,说明主管等,您就知道您的脚色在公司中的重要性。

你开始事变时,谋面对无数的陈诉。打点层集会会议正在召开,客户的数据由您的组织打点,他们但愿得到有关其基于云的音乐流应用的回收陈诉。为此,您必要行使包括数十亿行的表,并对相关数据库和Hive数据库举办排序。

这只是一个例子。您也许在公司面对更繁琐的事变。

作为数据说明师,您但愿提供足够的相干数据,以便组织中的员工可以在各自的脚色中做出明智且数据驱动的决定。

但要得到最佳功效,您必需可以或许轻松快速地会见数据。你越快,你就越轻易完成事变。他们越喜好与您相助,您的店主就越难以代替您。

您必要一个快速查询引擎,使您可以或许将组织行使的全部数据源中的数据网络到一个功效中,以便您可以快速做出数据驱动的决定。

这就是 Presto的 用武之地。您也许已经相识汗青。但假如没有,这里有一个快速的表明。

关于Presto的快速配景

Presto是由Facebook在2013年开拓的一种开源软件,用于高速查询差异来历的数据库,无论其数据的数目,速率和数目怎样。

构建这个大数据查询引擎的项目始于2008年,其时Facebook意识到他们必要一个可以查询数据库的引擎,而不管它们位于那里(Hadoop,Cassandra等)。快进到本日,Presto此刻被Uber,Twitter,AirBnB,亚马逊和其他几家企业的大公司所行使,首要是由于它的速率和手段。

“Presto让我们的用户的糊口更轻松。它极大地进步了他们的出产力“ - Netflix

“我们选择Presto作为我们体系的SQL引擎,由于它具有可扩展性,高机能以及与Hadoop的滑腻集成。这些属性使其很是得当我们的很多团队“ - 优步

Teradata 为Presto提供了首个贸易支持,之后,Netflix等其他公司也插手了开源查询引擎。今朝,Presto由Apache授权,并提供ANSI SQL合规性和基于法则的优化器。

可是,假如你要从Presto中得到最大的收益,那么你很清晰Presto毕竟是什么,不是什么?

Presto是什么和不是什么

起首,Presto 不是相关数据库打点体系。它领略或行使SQL并不料味着它可以更换传统的RDBMS,如MySQL,PostgreSQL等。 Presto 是一种器材,旨在行使漫衍式查询有用地查询差异来历的大量数据。 假如您在组织中行使数PB的数据,很也许您一向在行使与Hadoop和HDFS交互的器材。Presto 是这些器材的美满更换品。 Presto 另一个首要力气时聚合差异范例的数据源,包罗传统的RDBMS和其他数据源,如Cassanda上操纵的手段。 Presto还计划用于处理赏罚数据客栈和说明:数据说明,,聚合大量数据和天生陈诉事变负载 - 凡是归类为在线说明处理赏罚(OLAP)

轻松会见存储在任那里所的数据

Presto应承查询它地址的数据 - 无论是在Hive,Cassandra,相关数据库照旧专稀有据存储上。单个Presto查询可以组合来自多个来历的数据,从而应承整个组织举办说明。

无论您的数据存储在那里(云或当地存储),只要行使了合用于这些数据源的毗连器,Presto就可以轻松会见这些位置的数据。

Netflix 的大数据团队在Amazon S3上的数据客栈中行使Presto(亚马逊提供的云存储办理方案,可以从任那里所存储和检索任何数目的数据):

传统SQL语法的利益

Presto行使ANSI SQL语法和语义来构建其查询。

这样做的甜头是,拥有富厚相关数据库履历的说明师会发明编写Presto查询很是轻易和直接,镌汰了在进修全新语法气魄威风凛凛时说明数据时呈现的停机时刻和滞后。

然后是Optimized Row Columnar文件名目标上风。

优化队列(ORC)

Presto还支持ORC文件名目,它提供了一种存储Hive数据的高效要领。Presto的ORC阅读器可以或许跳过不必要的数据,耽误读取和矢量化读取。

安装Presto

安装Presto有一些要求:

Linux OS或Mac OS X. Java 8,64位 Python 2.4+ Presto处事器tarball, presto-server-0.184.tar.gz

Prestodb.io上用于陈设的文档很是易于领略,而且凭证文档中列出的步调,您将在约莫10分钟内启动并运行presto处事器。您可以在 此处 找到具体的文档。

按照您要毗连的数据源,Presto还提供各类毗连器,以确保Presto处事器与数据源之间的无缝通讯。可用的Presto毗连器包罗:

Accumulo Connector Black Hole Connector Cassandra Connector Hive Connector JMX Connector Kafka Connector  with a  Kafka Connector Tutorial Local File Connector Memory Connector MongoDB Connector MySQL Connector PostgreSQL Connector Redis Connector SQL Server Connector System Connector Thrift Connector TPCDS Connector TPCH Connector

在多个源上运行Presto查询

正如我之条件到的,Presto应承您一次对多个数据源运行查询,并行使SQL语句返回单个功效表。

它可以或许与位于任那里所的各类数据源集成,这意味着您可以与Cassandra,PostgreSQL,Accumulo,Hive和MongoDB毗连,并行使Presto的SQL语法将这些源中的数据提取到单个功效视图中。

相干阅读:

人民日报:用大数据进步社会管理智能化程度

买通用户数据 大千糊话柄现真正的大数据O2O营销

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读