数据科学家必要相识的5种采样要领
副问题[/!--empirenews.page--]
笔者按,采样题目是数据科学中的常见题目,对此,WalmartLabs 的数据科学家 Rahul Agarwal 分享了数据科学家必要相识的 5 种采样要领,雷锋网 AI 科技评述编译清算如下。 数据科学现实上是就是研究算法。 我天天都在全力进修很多算法,以是我想列出一些最常见和最常用的算法。 本文先容了在处理赏罚数据时可以行使的一些最常见的采样技能。 简朴随机抽样 假设您要选择一个群体的子集,个中该子集的每个成员被选择的概率都相称。 下面我们从一个数据齐集选择 100 个采样点。
分层采样 假设我们必要预计推举中每个候选人的均匀票数。现假设该国有 3 个城镇:
我们可以选择在整小我私人口中随机抽取一个 60 巨细的样本,但在这些城镇中,随机样本也许不太均衡,因此会发生毛病,导致预计偏差很大。 相反,假如我们选择从 A、B 和 C 镇别离抽取 10、20 和 30 个随机样本,那么我们可以在总样本巨细沟通的环境下,发生较小的预计偏差。 行使 python 可以很轻易地做到这一点:
水塘采样 我喜好这个题目告诉:
建设一个算法,从这个流中随机选择一个项目,这样每个项目都有沟通的也许被选中。 我们怎么能做到这一点? 假设我们必需从无穷大的流中抽取 5 个工具,且每个元素被选中的概率都相称。
从数学上可以证明,在样本中,流中每个元素被选中的概率沟通。这是为什么呢? 当涉及到数学题目时,从一个小题目开始思索老是有辅佐的。 以是,让我们思量一个只有 3 个项目标流,我们必需保存个中 2 个。 当我们看到第一个项目,我们把它放在清单上,由于我们的水塘有空间。在我们看到第二个项目时,我们把它放在列表中,由于我们的水塘照旧有空间。 此刻我们看到第三个项目。这里是工作开始变得风趣的处所。我们有 2/3 的概率将第三个项目放在清单中。 此刻让我们看看第一个项目被选中的概率: 移除第一个项目标概率是项目 3 被选中的概率乘以项目 1 被随机选为水塘中 2 个要素的更换候选的概率。这个概率是:
因此,选择项目 1 的概率为:
我们可以对第二个项目行使完全沟通的参数,而且可以将其扩展到多个项目。 因此,每个项目被选中的概率沟通:2/3 可能用一样平常的公式暗示为 K/N 随机欠采样和过采样 我们常常会碰着不服衡的数据集。 一种普及回收的处理赏罚高度不服衡数据集的技能称为重采样。它包罗从大都类(欠采样)中删除样本或向少数类(过采样)中添加更多示例。 让我们先建设一些不服衡数据示例。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |