使机器学习更容易采用的6种工具
副问题[/!--empirenews.page--]
现在,许多供给商通过提供自动化数据筹备和算法选择的条理,可以使数据智能营业用户回收人工智能技能,从而消除了呆板进修的隐秘感。 “呆板进修”这个术语赋予了神奇的光环。平凡人凡是不会回收呆板进修,而数据科学家才是高度专业化的炼金术士,他们在研究部分和尝试室中将数据转化为“黄金”,而只是简朴地说呆板进修是一门科学,在此之外险些没有提供表明。 虽然,这也许是一个鲜为人知的究竟,但多年来呆板进修器材已经成长到这样一个境地:险些任何人都可以按下按钮,并启动一些呆板来进修有代价的对象。这并不是一件轻易的事,但将数据整归并将其转化为可操纵看法的事变已经实现自动化,许多具有这种念头的组织可以做到这一点。 这种迟钝的再起是由贸易天下中很多非措施员已经相等能干数据的实际所敦促的。加载数字的电子表格是各级营业决定者的通用说话,呆板进修算法也像表格中数据清楚界说的行和列一样。呆板进修的新器材根基上只是另一组计策和选项,用于将表格数据转换为有效的谜底。这些器材的上风在于可以或许处理赏罚网络数据、添加布局,并保持同等性,然后开始沉重的计较事变。它们简化了数据网络进程,简化了将信息生涯在行和列中的事变。 这些器材还不足智能,无法为用户完成全部这些进修。用户必需提出正确的题目并找到吻合的处所。可是这些器材加快了对谜底的搜刮,因此可以包围更多的范畴,并在举办更多的搜刮。 AutoML:呆板进修的民主化 最近,新的风行术语“AutoML”开始呈现,暗示呆板进修算法附带了一个特另外自动化元层。尺度算法一向被计划用于自行查找模式和法则,但传统算法带有很多选项和参数。数据科学家常常耗费80%到99%的时刻致力于找到很具猜测性的法则。 AutoML通过实行一系列选项,测试它们然后实行更多来自动化这个阶段。它不是回收呆板进修算法运行一次,而是运行N次,举办一些调解,再次运行N次,云云重复,直到用户的预算、时刻、耐性耗尽。 AutoML器材很是得当云计较,由于它们在云中可以启动足够的呆板并行运行,然后在完成后将它们返回池中。用户只需在峰值计较时刻付出用度。 一样平常来说,AutoML算法是人们开始本身试探呆板进修的一个精采选择。自动化通过处理赏罚一些配置参数和选项的根基事变来简化事变,然后再为用户测试功效。跟着用户变得越发伟大,并开始领略功效,他们可以包袱更多这些事变,并自行配置代价。 新的体系还可以让用户更轻松地相识呆板的进修方法。假如经典编程将法则和数据转化为谜底,那么呆板进修算法将会反向事变,并将谜底和数据转换为法则。这些法则也许会汇报用户营业产生的工作。这些简化器材的开拓职员还建设了表明算法发明的法则的接口,更重要的是怎样复制功效。他们想打开黑盒以促进领略。 使呆板进修更轻易的6种器材 全部这些成果都为那些行使数字、电子表格和数据的人们开启了呆板进修的天下,消除了对编程和数据科学的庞大需求。下面的六个选项简化了用户行使呆板进修算法在数字海洋中找到谜底。 1.Splunk Splunk的原始版本最初是作为一种器材,通过当代Web应用措施建设的大量日记文件举办搜刮或“窥伺”。它已经成长成为可以说明全部情势的数据,出格是时刻序列和其他按次序天生的数据。该器材将功效表现在具有伟大可视化例程的仪表板中。 新版本包罗将数据源与TensorFlow等呆板进修器材和一些优质Python开源器材集成的应用措施。它们提供快速办理方案,用于检测非常值、标志非常,并天生对将来值的猜测。它们颠末优化,可以在很是大的数据齐集搜刮文件。 2.DataRobot DataRobot内部的仓库是一些用R、Python或其他几个平台编写的开源呆板库的荟萃。用户将只处理赏罚一个Web界面,该界面表现用于配置管道的相同流程图的器材。DataRobot毗连到首要数据源,个中包罗当地数据库、云数据存储和下载的文件或电子表格。用户构建的管道可以整理数据,添补缺失值,然后天生标志非常值,并猜测将来值的模子。 DataRobot还可以实行提供关于为什么举办某些猜测的“人道化表明”, 这对付领略人工智能的应用很是有效。 它可以陈设在云端和内部陈设办理方案的殽杂体中。云计较可以通过共享资源提供大的并行性和吞吐量,而当地安装可以提供更多的隐私和节制手段。 3.H2O H2O喜好用“无驱动的人工智能”来描写其试探各类呆板进修办理方案的自动化仓库。它将数据源(数据库、Hadoop、Spark等)接洽在一路,并将它们输入到具有普及参数的各类算法中。用户可以节制用于该题目的时刻和计较资源,并测试各类参数组合,直到完成预算。其功效可以通过仪表板或Jupyter条记本举办赏识和考核。 H2O的焦点呆板进修算法以及与Spark等器材的集成是开源的,但所谓的“无驱动” 选项是贩卖给企业客户的专有包之一。 4.RapidMiner RapidMiner生态体系的焦点是一个用于从可视图标建设数据说明的事变室。它将整理用户的数据,然后通过各类统计较法运行它。假如用户想行使呆板进修而不是更传统的数据科学,自动模子将从多种分类算法中举办选择,并搜刮各类参数,直到找到吻合的匹配。该器材的方针是天生数百个模子,然后确定优质模子。 建设模子后,该器材可以陈设它们,同时测试它们的乐成率,并表明模子怎样做出决定。可以行使可视化事变流编辑器测试和调解对差异数据字段的敏感度。 最近的改造包罗更好的文天职析、用于构建可视化仪表板的各类图表以及用于说明时刻序列数据的更伟大算法。 5.BigML BigML仪表板提供了数据科学的根基器材,用于辨认可以组成呆板进修更伟大事变基本的相干性。譬喻,他们的深度收集提供了用于测试和优化更风雅的神经收集的伟大机制。可以将模子的质量与其他算法举办较量,并行使尺度化的较量框架,辅佐用户在经典数据科学和更伟大的呆板进修之间举办选择。 BigML的仪表板在赏识器中运行,其说明可以在BigML云平台中运行,也可以在处事器机房中运行。其云计较版本的价值较低,以勉励早期应用,乃至尚有一个免费套餐。其本钱首要取决于数据集巨细的限定以及可以挪用的计较资源量。免费套餐将行使不高出两个并行运行的历程说明最多16MB的数据。局限较小的付费账户的订价很是公道,每月账单只需30美元,但跟着资源需求的增进,其价值会上升。 6.R Studio (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |