使用Spark MLlib进行基于Jave的欺诈检测
发布时间:2018-05-22 16:29:21 所属栏目:教程 来源:李佳惠
导读:【资讯】相识怎样行使Java和Spark MLlib开拓一种算法,该算法可以或许按照700万笔记录的数据集检测诓骗举动。 在这篇文章中,我们将行使Spark MLlib开拓Java中的算法。完备的事变代码可以从GitHub下载。可以在不行使深入的Java常识(行使设置文件)的环境下,
我们可以设置算法(请参阅属性runsWith)在Spark或Java 8 Streams上运行以处理赏罚数据。假如要在集群上的多个长途节点上运行代码并将功效荟萃到哀求的呆板上,则Spark是一个很好的框架。在本文中,算法在当地执行,Spark将当地资源(如CPU数目)视为方针聚集资源。另一方面,Java 8流很轻易提供与collection.stram()。parallel()(虽然,在当地运行的呆板上)的并行性。因此,作为尝试的一部门,Java 8流在一台呆板上与Spark举办了较量。 功效表白,Java 8流在当地速率更快,纵然不是太多。 Java = 111,927秒,Spark = 128,117秒。以是根基上,在运行全部数据时,流速要快16-25秒。请留意,每小我私人的电脑功效也许会有所差异。 因为Spark针对漫衍式计较举办了优化,与Java Streams对比,它在分区、使命等方面存在一些开销,只必要思量当地呆板,而且可以在哪里举办优化。无论怎样,都可以看到数据量在当地增进的差距。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |