基因界谷歌 | 中国人本身的生命大数据平台,来了!
编者按 5 月 27 日,生命大数据岑岭论坛暨第四届基因组云计较技能开拓者峰会(GCTA 4)在贵阳谨慎进行。作为 2019 数博会的重要构成部门,集会会议聚焦“阅读、打点、领略、计较生命大数据”,分享前沿学术陈诉,解读最新政策及行业动态,为生命大数据的研究与应用再添新动力。 环绕怎样搭建生命应用大平台,魏晓锋分享了国度基因库生命大数据平台(CNGBdb)的计划思绪及处事上风,并展示了 CNGBdb 在助力生命大数据研究与应用方面取得的成就。以下是内容详情。 生命大数据,发掘种质资源 生命就是大数据,其载体也许是动物、植物,也有也许是细胞,乃至磁盘或磁带。这里涉及一个要害词:种质(编者注:种质是指生物体亲代转达给子代的遗传物质,每每存在于特定品种之中。 如迂腐的处所品种、新培养的推广品种、重要的遗传原料以及野生近缘植物,都属于种质资源的范畴)。 哪些种质的应用对经济有较大代价?中国的种质资源富厚到什么水平?对付富厚的种质资源,应该怎样做好信息存储? 其它,每小我私人都是一个行走的大数据库。每小我私人从受精卵生长及至朽迈,整个身材里动态维持着 40 多万亿细胞,每个细胞里都有 23 对染色体。IT 规模常常提到一个词叫量级,晋升一个量级必要常常更新要领。而在 BT 规模的困难是,我们每小我私人有 3G 的基因组数据,通过测序说明会发生数百 GB 乃至 1TB 以上的数据。海量数据对平台和要领有更严苛的要求。 搭建数据组织的顶层计划 面临错乱的数据,CNGBdb 团队把自身的数据和果真的信息举办了整合。那么,如安在上层构建一个新的载体以组织毗连?魏晓锋以为,在这个平台上,必要做三件工作:数据、体系、收集。 详细到数据。CNGBdb 构建了一个数据客栈,整合了表里部的数据,成立尺度流程,全部的数据都以节点的情势来承载。 另外尚稀有据发掘。整个平台被分成数据层、平台层、应用层。将来,用户如需建设数据应用,只需一个按钮,就能像做选择题一样选择相干模块。 对应到收集,作为一个平台,并不是一个孤傲的数据点。CNGBdb 整合了环球的果真生命数据资源,包围母婴康健、肿瘤、动植物多样性、病原微生物等十几个研究规模,形成一个超大型的科研数据体系。 CNGBdb,打造基因界的谷歌 CNGBdb 的主页界面 魏晓锋先容,CNGBdb 今朝已经成立包围康健与疾病、生物多样性、微生物等规模的十大专稀有据库,专精专用;支撑数十篇科研成就颁发,被《Cell》《Nature Genetics 》《Nucleic Acids Research》等国际期刊引用;并通过样本信息共享平台(E-BioBank)对外共享相干信息,并且配有对应的标本照片。 可以说,CNGBdb 以同一派其它情势,为用户一站式办理搜、存、算、用所有需求,且对用户免费开放,全力打造“基因界的谷歌”。 CNGBdb 一站式办理搜、存、算、用所有需求 另外,依托国度基因库对生物数据的“存”、“读”、“写”联动,CNGBdb 将样本元数据与生物样本乃至活体信息相干联,因此数据可以在“生物活体——生物样本——生物信息数据”全进程中举办追溯,实现综合数据的全贯串。 魏晓锋称,从开始的“载体”到“毗连”,再到最后以“平台”的情势展示,CNGBdb 作为一个对外的窗口,展示了数据的也许性。其它,就处事体验而言,CNGBdb 更但愿做成一本字典,让全部人通过这个字典都可以利便快捷地相识到更多更富厚的信息。 将来,CNGBdb 将一连促进生命大数据的共享与操作,使生物信息数据在生命科学与生物财富成长中缔造更大代价。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |