数据科学与大数据技能专业规模的适用器材
数据科学与大数据技能是一门方向应用的学科规模,因此器材就成为重要的构成部门。在事变中,数据科学家假如选择有用的器材会带来事半功倍的结果。一样平常来说,数据科学家应该具有操纵数据库、数据处理赏罚和数据可视化等相干手艺,尚有许多人还以为计较机手艺也是不行或缺的,可以进步数据科学家事变的服从。 开源社区多年来对数据科学器材包开拓有着庞大孝顺,这也让数据科学规模得以不绝前进。这里我们网络了一些在数据库、编程说话、呆板进修、可视化、计较机等方面的开源器材。但愿可以辅佐到更大都据科学家及对这个规模感乐趣的人。 1. 数据库 1.1 MongoDB MongoDB是一个以可伸缩性和高机能著称的NoSQL数据库。它提供了传统数据库的强盛更换品,并使特定应用措施中的数据集成越发轻易。出格合用于构建大型web应用措施。 1.2 Apache HBase Apache HBase(Hadoop数据库)是一个漫衍式、可扩展的大数据存储。数据科学家在必要对大数据举办随机、及时读/写会见时,可以行使这个开源器材。 2. 编程说话 2.1 R R是一种用于数据处理赏罚和图形处理赏罚的编程说话,是数据科学家和说明职员行使的一种风行器材。按照数据科学家的说法,R说话是最轻易进修的说话之一,由于有大量的包和指南可供用户行使。 2.2 Python Python是数据科学家中另一种普及行使的说话,它是一种通用编程说话,着眼于可读性和简朴性。并且python中有很是多可以用于数据处理赏罚、呆板进修和可视化的代码库。 2.3 Scala Scala是一种运行在Java平台上的通用编程说话。它合用于大型数据集,首要用于Apache Spark和Apache Kafka等大数据器材。这种函数式编程气魄威风凛凛带来了速率和更高的出产率,这导致越来越多的公司逐步地将其作为数据科学器材包的重要构成部门加以顺应。 2.4 SQL SQL是用于存储在相关数据库中的数据的专用编程说话。SQL用于更根基的数据说明,可以执行组织和操纵数据或从数据库检索数据等使命。在数据科学器材中,它是在数据库中过滤和选择数据的最佳器材之一。 2.5 Julia Julia是一种用于技能计较的动态编程说话。它没有被普及行使,但因为其机动性、计划和机能,在数据科学器材中越来越受接待。 3. 数据发掘 3.1 RapidMiner RapidMiner是一个具有可视化和统计建模成果的猜测说明器材。该软件的基本是RapidMiner Studio,它是一个免费的开源平台。 3.2 Data Melt Data Melt是一款数学软件,拥有先辈的数学计较、统计说明和数据发掘成果,并且可以通过编程说话举办增补,乃至包括一个普及的教程库。 另外,Python和R中都有许多用于数据发掘的库,这里就不再赘述了。 4. 呆板进修 4.1 Weka Weka是由怀卡托大学用Java编写的呆板进修软件。它用于数据发掘,应承用户处理赏罚大数据集。Weka的一些特征包罗预处理赏罚、分类、回归、聚类、尝试、事变流和可视化。 4.2 TensorFlow TensorFlow是一个用于数值计较的软件库,它应承措施员在不必要领略其背后的一些伟大道理的环境下的应用深度进修,并被列为辅佐数千家公司应用深度进修的数据科学器材之一。 4.2 Apache Mahout Apache Mahout是一种构建可伸缩呆板进修算法的情形。算法是在Hadoop上编写的。Mahout实现了三个首要的呆板进修使命:协同过滤、聚类和分类。 4.3 Orange Orange一个是简朴的数据科学器材,它致力于使数据科学变得风趣和交互式,应承用户在不必要编码的环境下说明和可视化数据,也为初学者提供呆板进修选项。 4.4 MLBase MLBase是加州大学伯克利分校的AMP(算法呆板人)尝试室开拓的一个开源项目。背后的焦点头脑是为呆板进修应用于大局限题目提供一个简朴的办理方案。 5. 数据可视化 5.1 D3 5.2 Axiis 在数据科学器材中,Axiis是一个鲜为人知的数据可视化框架。它应承用户以一峙?拘示意力和简捷的情势行使预先构建的组件构建图表和试探数据。 6. 其他器材 6.1 Linux Bash剧本是计较机科学中最根基的器材,而且数据科学中很大一部门必要编程,必需用一些呼吁行来处理赏罚包、框架打点、情形变量、会见路径($PATH)等等,因此Linux是须要的。 6.2 Git 在团队中编码时,可以借助 git办理团队成员代码斗嘴、修复bug、更新。将代码提交到开源或私有的repo(如Github)时,可以行使Coveralls之类的对象举办代码测试,尚有辅佐陈设代码到出产中的其他框架。 6.3 REST APIs REST APIs可以让当地的实习模子和可用措施无缝跟尾。通过尺度API挪用或开拓可用的应用措施真正让数据科学模子举办猜测。这也是其在数据科学中的庞大浸染。 6.4 Docker & Kubernetes Docker让用户拥有一个出产停当(production ready)的应用情形,不必要为每个运行的单个处事齐集设置出产处事器。与必要安装完备操纵体系的假造机差异,docker容器在与主机沟通的内核上运行,而且轻量得多。一些高级的呆板进修库(如Tensorflow)必要特定的设置,很难在某些主机长举办妨碍解除,docker就是一个很好地选择。 Kubernetes(K8s)是一个在多主机长举办局限打点和陈设容器化处事的平台。本质上,这意味着您可以轻松地通过跨程度可扩展集群,打点和陈设docker容器。 6.5 Apache Airflow Airflow是一个较为小众的Python平台,可以行使有向无环图(DAG)措施化地建设、调治和监控事变流。它能让你可以随时按照必要轻松地配置Python或bash剧本,并在用户友爱的GUI中节制调治功课。 6.6 Elasticsearch Elasticsearch也是一个较量小众的器材。Elastic通过Python客户端便捷地提供了所需的统统,让你可以轻松地以容错和可扩展的方法索引和搜刮文档。你拥有的数据越多,启动的节点就越多,查询执行的速率就越快。它有许多成果,乃至支持多说话说明器等定制插件。 6.7 Homebrew Homebrew是一个Mac OS体系的器材,可以辅佐不能开箱即用的OS体系通过终端呼吁举办安装, 补充了OS体系无包揽理的缺陷。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |