加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

“老司机”划重点!搞定这120个真实面试问题,杀进数据科学圈

发布时间:2019-03-08 10:26:28 所属栏目:教程 来源:Github 编译:陆震、张秋玥、蒋宝尚 直到今天,在各类媒
导读:大数据文摘出品 来历:Github 编译:陆震、张秋玥、蒋宝尚 直到本日,在种种媒体口中,数据科学家依然是21世纪最性感的职业。但究竟上,但愿进入这个行业的低级数据科学家已经供过于求。 可以预见的是,各类高校相干专业的结业生,在完成coursera可能fast.

MSE对非常值越发严酷。在这个意义上MAE鲁棒性更好,但也更难以拟合模子,由于它无法在数值长举办优化。因此,当模子的可变性较小且在计较上轻易拟适时,我们应该行使MAE,不然应该行使MSE。

  • MSE:更轻易计较梯度
  • MAE:计较梯度必要线性编程MAE对非常值越发妥当。

假如较大错误造成的效果很严峻,行使MSEMSE相等于最大化高斯随机变量的也许性。

(5) 你会什么偏差指标来评估二分类器的优劣?假如种别不服衡怎么办?假如高出2组怎么办?

  • 精确性:你正确猜测的环境的比例。利益:直观,易于表明,弱点:当类标签不服衡且数据信号较弱时结果不。
  • AUROC:在x轴上绘制fpr,在y轴上绘制tpr以得到差异的阈值。给定随机正例和随机负例,AUC是你能可以辨认类此外概率。利益:在测试分类手段时结果很好,弱点:不能将猜测表明为概率(由于AUC由排名抉择),因此无法表明模子的不确定性。
  • logloss/deviance:利益:基于概率的偏差怀抱,弱点:对假阳性,假阴性很是敏感。当有高出2组时,我们可以行使k个二分类并将它们添加到logloss中。 像AUC这样的一些指标仅合用于二分类环境。

概率

(1) 阿米巴虫波波生0个、1个或2个小阿米巴虫的概率别离是25%、25%以及50%。这些小阿米巴虫们的繁殖手段也都一样。叨教波波的儿女灭尽的概率是几多?

  • p=1/4+1/4p+1/2p^2 => p=1/2

(2) 任何15分钟时刻段内,你看到至少一颗流星的概率是20%。叨教在一小时内你看到至少一颗流星的概率是几多?

  • l 1-(0.8)^4。 可能我们用泊松进程也可以解。

(3) 仅行使一枚色子,你怎样天生一个1-7内随机数?

  • 丢三次色子:每一次丢的都是功效的第n位
  • 每次丢色子时,假如值为1-3,则记录0,不然记录1。功效会位于0(000)与7(111)之间,匀称漫衍(由于这三次投掷相互独立)。假如获得0则一再投掷:该进程会终止于匀称漫衍的值。

(4) 有一个数据集包括来自两个正态漫衍的数值。两个漫衍的尺度差沟通。来自两个漫衍的数据点个数沟通。叨教假如想要该数据集呈双峰漫衍,两个漫衍的均值该当至少差几多?

  • 多于两个尺度差

(5) 提供已知正态漫衍的样本值,叨教你能怎样模仿一个匀称漫衍的样本值?

  • 将值代入统一随机变量的累计漫衍函数

(6) 一对伉俪汇报你他们有两个小孩,个中至少有一个是女孩。叨教他们拥有两个女儿的概率是几多?

  • 1/3

产物指标

(1) 对付一个告白驱动的斲丧者产物(好比Buzzfeed,YouTube,Google搜刮等),什么可以称为好的乐成权衡指标?处事驱动的斲丧者产物(好比优步,Flickr,Venmo等)呢?

  • 告白驱动:页面赏识量与逐日活泼量,点击率,每次点击本钱
  • 处事驱动:购置量,转化率

(2) 对付一个服从器材(好比印象条记,Asana,Google文档等),什么可以称为好的乐成权衡指标?线上课程平台(好比edX,Coursera,Udacity等)呢?

  • 服从器材:付费订阅用户数
  • 线上课程平台:付费订阅用户数,课程完成率

(3) 对付一个电商产物(好比Etsy,Groupon,Birchbox等),什么可以称为好的乐成权衡指标?订阅产物(好比Netflix,Birchbox,Hulu等)呢?高级付费订阅(好比OKCupid,领英,Spotify等)呢?

  • 电商产物:购置量,转化率,时/日/周/月/季/年贩卖额,,售生产物本钱,存货量,网站流量,净转头客量,客服电话量,均匀办理题目时长
  • 订阅产物:流失量,(不知道接下来这几个都是啥)
  • 高级付费订阅:(无解答)

(4) 对付高度依靠于用户投入与交互的斲丧者产物(好比Snapchat,Pinterest,Facebook等),什么可以称为好的乐成权衡指标?通信产物(好比GroupMe,Hangouts,Snapchat等)呢?

  • 高度依靠于用户投入与交互的斲丧者产物:user AU ratios,分范例邮件汇总,分范例推送关照汇总,复生率。
  • 通信产物:(无解答)

(5) 对付拥有app内购处事的产物(好比Zynga,恼怒的小鸟以及很多其他游戏),什么可以称为好的乐成权衡指标?

  • 用户/付用度户均匀营收

编程(14题)

(1) 编写一个函数,计较2n个用户全部也许分派向量,个中n个用户为节制组,n个用户为治疗组。

  • 递归编程

(2) 提供一个包括推特动静的列表,求十个最常用的的标签。

  • 在字典中存储全部标签然后求前十值

(3) 在给按时刻内写出算法求解背包题目的最佳近似解。

  • 贪默算法

(4) 在给按时刻内写出算法求解观光商题目的最佳近似解。

  • 贪默算法

(5) 你将获得一个巨细为n的数据集,但你无法提前知道n详细有多大。写出一个占有O(k)的算法来随机抽取k个元素。

  • 水塘抽样

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读