加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

谷歌公司十年前的三项工作,奠定了当今大数据生态的技术基础

发布时间:2020-11-30 11:26:46 所属栏目:建站 来源:网络整理
导读:很多对大数据技能感乐趣的人都传闻过 Google 在十年前颁发的三项重要成就:Google File System(GFS),MapReduce 和 Bigtable[见表1]。Google 在这些成就中,先容了其操作通用计较装备乐成搭建漫衍式集群的要领。个中的诸多计划头脑在其后被普及小心。 表1

Bigtable 的数据将以 SSTable 的情势耐久化存储,SSTable 相干常识请其它自行查阅。其索引布局如图所示:

ca1349540923dd54f62f46315f8913d99d824897

Bigtable 的查询道理是按照 row key, column key, timestamp 等字段,获得对应的 value。相干字段的属性信息如下:

* row key:巨细一样平常在 10-100 bytes,最多 64KB。对一个 row key 的读写操纵是原子的;

* column key: 由 column family + column key 构成;

* timestamp:64位整数,以微秒或其他情势存在,用于实现数据的版本打点。在发生时刻戳时要停止碰撞。

计划头脑

Bigtable 的首要计划头脑如下:

1. 可扩展性

2. 高机能

3. 向外提供出格的接口,不支持完全的相关数据模子;

4. 动态支持数据名目和 schema 变革,客户端可以对数据的存放位置举办揣度;

5. 索引由 row 和 column 等字符串连系组成;

6. 将数据内容作为不行表明的字符串看待;

05

总结

在以大量 x86 处事器搭建的漫衍式集群上计划实现体系时,必要思量的要害题目可以总结如下:

1. 数据漫衍(Location):数据在集群中的漫衍。为了进步 I/O 服从,停止主机之间的收集通讯成为全局瓶颈,必要对数据在整个集群的漫衍做出公道布置,将常常被一同会见的数据只管安放在一路;

2. 容错:思量在大局限集群中,单点妨碍也许导致的妨碍题目;

3. 同等性:漫衍式场景下必要将数据做分隔备份以停止单点妨碍造成数据永世丢失,这也使得呆板间数据状态同等性更难节制;

4. 负载平衡:停止单个呆板包袱过多事变,应该尽也许施展每台呆板的机能,晋升大型事变的执行服从。

小我私人评价

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读