加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据处理平滑算法:Good-Turing估计

发布时间:2021-03-04 18:23:17 所属栏目:大数据 来源:网络整理
导读:大数据处理赏罚中,不管数据怎样大,因为不能穷举统统,老是有限的。 那么在有限的数据局限下,参数滑腻算法就异常重要。参数滑腻算法是在实习数据不敷时,回收某种方法对统计功效和概率预计举办须要的调解和修补,以低落因为数据稀少征象带来的统计偏差。 好比

大数据处理赏罚中,不管数据怎样大,因为不能穷举统统,老是有限的。那么在有限的数据局限下,参数滑腻算法就异常重要。参数滑腻算法是在实习数据不敷时,回收某种方法对统计功效和概率预计举办须要的调解和修补,以低落因为数据稀少征象带来的统计偏差。


好比,在天然说话处理赏罚(NLP)中,语料库是凭证必然原则组织在一路的真实天然说话数据荟萃,用于研究天然说话的纪律,出格是统计说话学模子的实习以及干系体系的评价。因为语料库的局限和它所包括的说话征象有限,从而导致数据稀少征象的发生,也就是说,在语料库的局限不足大的前提下,大大都词或连接词及各属性的搭配在语料中呈现的次数很少,乃至基础不呈现的征象。在现实应用中,数据稀少的存在会发生大量空值,严峻影响后续处理赏罚的机能和结果。这时,就必要滑腻算法。


假设元素的荟萃是 X = {x1,...,xm},这些元素也许是n-grams,简朴起见,假设是unigram。好比 X = {the,bad,cat,dog}。我们有一个序列W,包括N个独立的样本:W = w1,wn,?个中wk ∈ X。此刻我们必要预计θ[j],就是将呈现的样本是xj的概率。必要满意θ[j] > 0,就算之前没有呈现过,未来也也许呈现。这就意味着用相对频率 #(xj)/N,个中#(xj ) 是xj在W中呈现的次数,来预计小的次数的元素是不抱负和正确的。并且遇到一个题目:怎么预计从来没有见到的元素的概率。


Good-Turing预计是许大都据滑腻技能的焦点。它的根基头脑是:将统计参数按呈现次数聚类(假如 #(xj ) = #(xj‘),then θ[j] = θ[j’]),呈现一次的几多,呈现两次的几多,等等,然后用呈现次数加一的类来预计当前类。好比,用呈现次数为n+1的类来预计呈现次数为n的类。


按照这个假定,我们引入θ(r) 来暗示一个元素在W中呈现r次的概率。同时用Nr来指示元素在W中正好呈现r次的个数,也就是Nr = |{xj : #(xj ) = r}|。满意以部属性:

大数据处理赏罚滑腻算法:Good-Turing预计


Good-Turing预计θ(r)为:

大数据处理赏罚滑腻算法:Good-Turing预计


起首必需担保全部元素呈现的概率的和应该是1.

大数据处理赏罚滑腻算法:Good-Turing预计


因为

大数据处理赏罚滑腻算法:Good-Turing预计


以是

大数据处理赏罚滑腻算法:Good-Turing预计


对付Good-Turing预计的详细推导,请点击阅读原文或是参考 http://www.cs.cornell.edu/courses/cs6740/2010sp/guides/lec11.pdf

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读