加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

30分钟,将你的Spark SQL模型变为在线办事

发布时间:2021-05-30 12:27:55 所属栏目:大数据 来源:互联网
导读:SparkSQL在呆板进修场景中应用 第四范式已经在许多行业落地了上万个AI应用,好比在金融行业的反诓骗,媒体行业的消息保举,能源行业管道检测,而SparkSQL在这些A

SparkSQL在呆板进修场景中应用

第四范式已经在许多行业落地了上万个AI应用,好比在金融行业的反诓骗,媒体行业的消息保举,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特性调动施展着重要的浸染

 

半小时,将你的Spark SQL模子变为在线处事

SparkSQL在特性调动首要有一下几类

 

多表场景,用于表之间拼接操纵,好比买卖营业信息表去拼接账户表

行使udf举办简朴的特性调动,好比对时刻戳举办hour函数处理赏罚

行使时刻窗口和udaf举办时序类特性处理赏罚,好比计较一小我私人最近1天的斲丧金额总和

SparkSQL到今朝为止,办理很好的办理离线模子实习特性调动题目,可是跟着AI应用的成长,各人对模子的祈望不再只是得出离线调研结果,而是在真实的营业场景施展出代价,而真实的营业场景是模子应用场景,它必要高机能,必要及时推理,这时辰我们就会碰着以下题目

 

多表数据离线到在线怎么映射,即批量实习进程中输入许多表,到在线情形这些表该以什么情势存在,这点也会影响整个体系架构,做得好可以或许晋升服从,做得欠好就会大大增进模子发生营业代价的本钱

SQL转换成及时执行本钱高,由于在线推理必要高机能,而数据科学家也许做出成千上万个特性,每个特性都人肉转换,会大大增进的工程本钱

离线特性和在线特性保持同等坚苦,手动转换就会导致同等机能,并且每每很难同等

离线结果很棒可是在线结果无法满意营业需求

在详细的反诓骗场景,模子应用要求tp99 20ms去检测一笔买卖营业是否是诓骗,以是对模子应用机能要求很是高

 

第四范式特性工程数据库是怎样办理这些题目

半小时,将你的Spark SQL模子变为在线处事

通过特性工程数据库让SparkSQL的手段获得了增补

 

以数据库的情势,办理了离线表到在线的映射题目,我们对前面给出的谜底就是离线表是怎么漫衍的,在线也就怎么漫衍

通过统一套代码去执行离线和在线特性转换,让在线模子结果获得了担保

数据科学家与营业开拓团队的相助以sql为转达介质,而不再是手工去转换代码,大大晋升模子迭代服从

通过llvm加快的sql,对比scala实现的spark2.x和3.x在时序伟大特性场景可以或许加快2~3倍,在线通过in-memory的存储,可以或许担保sql可以或许在很是低耽误返回功效

快速将spark sql 模子酿成及时处事demo

demo的模子实习场景为猜测一次打车行程到竣事所必要的时刻,这里我们将行使fedb ,pyspark,lightgbm等器材最终搭建一个http 模子推理处事,这也会是spark在呆板进修场景的实践

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读