加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

数据分析师必看,老司机带你认识 AB 常见的10个错误

发布时间:2019-09-19 17:52:19 所属栏目:教程 来源:skura
导读:「没稀有据,你只是一个有设法的人。」 这是 W. Edwards 的依据名言,它表白,A/B 测试对付做出精采的贸易决定来说至关重要。在 Manomano,我们向数百万用户展示数百万 DIY 和园艺产物,并天天举办数十个 A/B 测试,以改进我们网站的用户体验。 ManoMano
副问题[/!--empirenews.page--]

「没稀有据,你只是一个有设法的人。」

这是 W. Edwards 的依据名言,它表白,A/B 测试对付做出精采的贸易决定来说至关重要。在 Manomano,我们向数百万用户展示数百万 DIY 和园艺产物,并天天举办数十个 A/B 测试,以改进我们网站的用户体验。

数据说明师必看,老司机带你熟悉 AB 常见的10个错误

ManoMano 花圃大棚分类页面上的产物排名算法 A/B 测试示例

然而,运行 A/B 测试息争释功效也许很是坚苦,假如做得差池,也许会获得错误的结论。这篇博文的目标不是要声名在运行 A/B 测试时应该做什么,而是要汇报你不该该做什么。下面是我们在举办 A/B 测试时常常会犯的 10 个常见错误。

1.在仅当一部门人受到影响时,调查全部人

示例:你想测试你的搜刮引擎相干性,但在说明 A/B 测试功效时,你查察整个总体,而不只仅是行使搜刮引擎的用户。固然这在科学的角度来说不是错误的,可是到达统计明显性必要更长的时刻,由于在说明的数据中添加了一些噪声:

数据说明师必看,老司机带你熟悉 AB 常见的10个错误

履历 1:为了更快地到达统计明显性,应该只调查与测试成果交互用户(这里是搜刮引擎)的功效。

2.在没有任何营业直觉的环境下举办测试

不能行使太多变量(A/B/C/../N)举办测试。譬喻,假如行使 α=5% 明显性阈值并抉择测试 20 个差异的场景,则个中每个场景是正样本的机遇是偶尔的。这是多重较量题目的一个例子。因此,营业直觉对付抉择启动哪个 A/B 测试至关重要。为了声名这一点,我们可以修改 W.Edwards Deming 的名言:

「没有设法,你只是一个稀有据的人 」

数据说明师必看,老司机带你熟悉 AB 常见的10个错误

履历 2:用你的直觉(可能更好的要领——做用户观测)来抉择启动哪一个 A/B 测试。

3.对生齿举办分段以到达统计明显性

这是多重较量题目的另一个例子:「我的 A/B 测试不明显,因此我将在装备上对数据举办分段以得到明显功效」。在举办数据支解时必需很是警惕。究竟上,你较量的片断越多,功效中呈现错误的几率就越大。

以 country * device 为例,我们在 Manomano 有 n=15 个细分市场(5 个国度*3 个装备:法国/手机、法国/桌子、西班牙/平板电脑等)。让我们计较在个中一个分段上偶尔呈现至少一个重要功效的概率:

数据说明师必看,老司机带你熟悉 AB 常见的10个错误

我们有高出 50% 的机遇呈现这种偶尔性,因此,从支解数据的测试中得出结论并采纳动作长短常伤害的。但也有一些技能可以缓解这一题目,好比 Bonferroni 校正。

履历 3:不要为了到达统计明显性而支解你的数据。

4.查察几个指标以到达统计明显性

多重较量题目的另一个例子是:「我的 A/B 测试在转换率、均匀购物篮和跳出率上都没有明显功效。但这对每类购物篮的数目来说是很重要的!假如你调查足够多的指标,你最终会发明个中一个指标可巧表现了一个重要的功效:

数据说明师必看,老司机带你熟悉 AB 常见的10个错误

A/B 测试功效声名

履历 4:僵持测试计划的尺度。

5.到达统计明显性时遏制测试

统计明显性不能汇报你什么时辰应该遏制测试。在遏制测试之前,你必要守候以到达计较出的样本巨细。行使 A/B 测试计较器计较测试所需的样本巨细。有关这种毛病的更多细节,请阅读这里的题目声名。你还可以在此处模仿 A/A 测试,以查察在测试早期到达统计明显性的频率,纵然在测试竣事时功效不明显:

数据说明师必看,老司机带你熟悉 AB 常见的10个错误

行使 james lutrek 器材,按照样本数目调查 A/A 测试尝试的明显性

履历 5:纵然你的测试有统计学意义(统计明显性),也要继承测试,直到测试竣事。

6.在到达统计明显性之前不要遏制测试

同样,统计明显性不能汇报你什么时辰可以遏制测试,可能继承测试。你不该该守候一个测试变得故意义,由于它也许永久不会产生。假如你已经到达了在测试前计较出的样本量,这就意味着你的测试有足够的统计手段得出结论。

数据说明师必看,老司机带你熟悉 AB 常见的10个错误

Evan Miller 的 A/B 测试一连时刻计较器

履历 6 :一旦到达所需的样本量,遏制测试。

7.将(1-p 值)当做 B 优于 A 的概率

这是一个很常见的错误。p 值为 2% 并不料味着 B 有 98% 的机遇比 A 好。这个假设在数学上是错误的,由于它还取决于基准率,即你所做的测试中,有起劲影响的百分比(只有天主知道这个数字!)。这个数字反应了你的贸易直觉程度。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读