加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

文本特性选择

发布时间:2021-03-05 21:54:15 所属栏目:大数据 来源:网络整理
导读:转载:http://www.cnblogs.com/fengfenggirl/p/text_feature_selection.html 在做文本发掘,出格是有监视的进修时,经常必要从文本中提取特性,提取出对进修有代价的分类,而不是把全部的词都用上,因此一些词对分类的浸染不大,好比“的、是、在、了”等停

转载:http://www.cnblogs.com/fengfenggirl/p/text_feature_selection.html


在做文本发掘,出格是有监视的进修时,经常必要从文本中提取特性,提取出对进修有代价的分类,而不是把全部的词都用上,因此一些词对分类的浸染不大,好比“的、是、在、了”等停用词。这里先容两种常用的特性选摘要领:

互信息

  一个常用的要领是计较文档中的词项t与文档种别c的互信息MI,MI怀抱的是词的存在与否给种别c带来的信息量,互信息的根基界说如下:

文本特性选择

  应用到文本特性选择:

文本特性选择

  U、C都是二值随机变量,当文档包括词项t时,U的取值为 et=1 et=1,不然 et=0 et=0;当文档属于种别c时,C的取值 ec=1 ec=1,不然 ec=0 ec=0,用最大似然预计时,上面的概率值都是通过统计文档中词项和类此外数量阿里计较的。于是现实计较公式如下:  

文本特性选择

  个中 Nxy Nxy暗示 x=et x=et和 y=ec y=ec环境下对应的文档数量,好比 N10 N10暗示包括词项t(此时 et=1 et=1)但不属于种别c(此时 ec=0 ec=0)的; N1.=N10+N11 N1.=N10+N11暗示全部包括词项t的文档数量。 N.1=N11+N01 N.1=N11+N01暗示全部属于类c的文档数量, N=N00+N01+N10+N11 N=N00+N01+N10+N11暗示全部文档数量。

  举例:路透社的语料库Retuters-RCV1的一个种别poultry及词项export。种别和词项的四种组合的文档数如下:  

文本特性选择

  计较种别poultry和词export之间的类此外互信息为:  

文本特性选择

  我们可以对每一个类计较各个词项与其的互信息,并选取值最大的k个词项,虽然有也许两个类会选取沟通的特性词,去重一下即可。

  互信息怀抱的是词项是否被种别包括所带来的信息量,假如某个词项匀称的漫衍在各个种别,那么 I(U;C)=0 I(U;C)=0,当某词项老是呈此刻当前种别,而在其他种别中很少呈现时, I(U;C) I(U;C)就会较量大。行使互信息可以或许保存具有信息含量的词项的同时,去掉那些没有信息含量的词项,从而进步正确率。

X2 X2统计量

  在统计学中, X2 X2统计量常常用来检测两个变乱的独立性。在特性选择中,两个变乱别离指词项的呈现与类此外呈现,计较公式如下:

文本特性选择

  依然是前面的种别poultry及词项export的例子,我们有

文本特性选择

  其他的相同计较,获得:  

文本特性选择

  

文本特性选择


  查卡方的漫衍表,置信度为0.999的卡方临界值是10.83,也就是当卡方值 X2(D,t,c)>10.83 X2(D,t,c)>10.83时,我们有99.9%的掌握,t与c不独立,这里284显然大于10.83,因此我们以为poultry与export不独立,也就是export对poultry是一个强特性。同样我们计较全部词的卡方值,取值最大的前k个词项作为特性词。

  卡方是基于明显统计性来选择特性的,因此他会比MI选出更多的有数词项,而这些词项对分类并不靠谱。

  固然卡方和互信息的起点差异,但它们的精确性却相差不多,由于大部门文天职类题目中,只有很少的强特性,大部门都是弱特性。只要全部的强特性和许多弱特性被选出,那么分类的精确率就不会低。

  其它上面先容的两种特性选择首要用于文本的分类等用监视进修,而不相宜聚类等无监视进修,由于聚类我们不知道每篇文档属于的种别,也就无从计较互信息和卡方值,这时一样平常行使TF-IDF作为特性词的选取要领,关于TF-IDF可以参看阮一峰的日记,这里不做总结。

?

  本文内容首要来自:《Introduction to Information Retrieval》

? ? ?转载请注明出处:http://www.cnblogs.com/fengfenggirl/

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读