说明器材很难选? 看他们怎样发掘大数据代价
Yahoo在2006年成为第一个将Hadoop应用于出产情形的用户,其时,Hadoop的开拓者之一Doug Cutting正在这家收集搜刮和互联网处事公司事变,Yahoo宣传本身是当今Hadoop平台最大的用户。Yahoo的大数据说明架构,包罗40000多个节点,300多个应用,40个集群,Yahoo将Hadoop与Apache HBase数据库,Apache Storm 及时处理赏罚引擎和其他大数据技能团结行使。但这家公司并不满意于近况,它一向在全力将这些技能扩展到新的规模。 Yahoo认真大数据和呆板进修架构的副总裁Andy Feng说道,“纵然在10年后,我们如故会发明这么做的甜头,在已往的三年里,他花了约莫95%的时刻专注于呆板进修器材和应用上。在已往,可以构建并运行现有呆板进修技能上的自动算法不敷以在Hadoop集群处理赏罚云云复杂的数据集,其精确性无执法人满足。” “我们一向实行呆板进修,但我们的实行有着必然的束缚,以是发生的功效是有限的,Yahoo认真云计较和大数据平台产物开拓的高级总监Sumeet Singh增补说道。不外,他和Feng都暗示,连年来,环境已经大为好转。“我们看到,人工智能和呆板进修重回人们的视线,个中一个首要缘故起因就是数据量的增添,”Singh指出。 譬喻,Yahoo此刻正在运行一个呆板进修算法,该算法行使语义说明进程,更好地将付费告白搜刮功效页面与用户输入的搜刮要害字举办匹配,它将每个搜刮的营收晋升了9%。另一个行使呆板进修的应用可以让Yahoo Flickr在线照片和视频处事的用户可以或许凭证视觉内容来对图像举办组织,而在早年,他们只能凭证照相日期排序。该算法还可以标志那些不得当在事变中查察的照片,以辅佐用户停止在办公室看照片时发生的忧伤环境,Feng说。 Hadoop集群节点新增了图形处理赏罚单位,让这些应用成为了也许。Feng暗示,GPU可以举办传统CPU无法完成的图像处理赏罚。Yahoo在大数据说明架构中新增了Spark处理赏罚引擎,经受了一些处理赏罚事变。 另外,Yahoo还陈设了MLlib,Spark的呆板进修算法内置库。然而,这些算法过分于基本,Singh说。这促使大数据团队开拓了一个深度进修算法库CaffeOnSpark, Yahoo已经在GitHub网站上传了该算法库,行使者可以自由下载。 (来历:TechTarget中国) 假如您在企业IT、收集、通讯行业的某一规模事变,并但愿分享概念,接待给企业网D1Net投稿,投稿邮箱:editor@d1net.com (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |