大数据处理平滑算法：Good-Turing估计

发布时间：2021-03-04 18:23:17 所属栏目：大数据来源：网络整理

导读：大数据处理赏罚中，不管数据怎样大，因为不能穷举统统，老是有限的。那么在有限的数据局限下，参数滑腻算法就异常重要。参数滑腻算法是在实习数据不敷时，回收某种方法对统计功效和概率预计举办须要的调解和修补，以低落因为数据稀少征象带来的统计偏差。好比

大数据处理赏罚中，不管数据怎样大，因为不能穷举统统，老是有限的。那么在有限的数据局限下，参数滑腻算法就异常重要。参数滑腻算法是在实习数据不敷时，回收某种方法对统计功效和概率预计举办须要的调解和修补，以低落因为数据稀少征象带来的统计偏差。

好比，在天然说话处理赏罚（NLP）中，语料库是凭证必然原则组织在一路的真实天然说话数据荟萃，用于研究天然说话的纪律，出格是统计说话学模子的实习以及干系体系的评价。因为语料库的局限和它所包括的说话征象有限，从而导致数据稀少征象的发生，也就是说，在语料库的局限不足大的前提下，大大都词或连接词及各属性的搭配在语料中呈现的次数很少，乃至基础不呈现的征象。在现实应用中，数据稀少的存在会发生大量空值，严峻影响后续处理赏罚的机能和结果。这时，就必要滑腻算法。

假设元素的荟萃是 X = {x1,...,xm}，这些元素也许是n-grams，简朴起见，假设是unigram。好比 X = {the,bad,cat,dog}。我们有一个序列W，包括N个独立的样本：W = w1,wn,?个中wk ∈ X。此刻我们必要预计θ[j]，就是将呈现的样本是xj的概率。必要满意θ[j] > 0，就算之前没有呈现过，未来也也许呈现。这就意味着用相对频率 #(xj)/N，个中#(xj ) 是xj在W中呈现的次数，来预计小的次数的元素是不抱负和正确的。并且遇到一个题目：怎么预计从来没有见到的元素的概率。

Good-Turing预计是许大都据滑腻技能的焦点。它的根基头脑是：将统计参数按呈现次数聚类（假如 #(xj ) = #(xj‘),then θ[j] = θ[j’]），呈现一次的几多，呈现两次的几多，等等，然后用呈现次数加一的类来预计当前类。好比，用呈现次数为n+1的类来预计呈现次数为n的类。

按照这个假定，我们引入θ(r) 来暗示一个元素在W中呈现r次的概率。同时用Nr来指示元素在W中正好呈现r次的个数，也就是Nr = |{xj : #(xj ) = r}|。满意以部属性：

Good-Turing预计θ(r)为：

起首必需担保全部元素呈现的概率的和应该是1.

因为

以是

对付Good-Turing预计的详细推导，请点击阅读原文或是参考 http://www.cs.cornell.edu/courses/cs6740/2010sp/guides/lec11.pdf

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智