文本特性选择
转载:http://www.cnblogs.com/fengfenggirl/p/text_feature_selection.html 在做文本发掘,出格是有监视的进修时,经常必要从文本中提取特性,提取出对进修有代价的分类,而不是把全部的词都用上,因此一些词对分类的浸染不大,好比“的、是、在、了”等停用词。这里先容两种常用的特性选摘要领: 互信息 一个常用的要领是计较文档中的词项t与文档种别c的互信息MI,MI怀抱的是词的存在与否给种别c带来的信息量,互信息的根基界说如下: 应用到文本特性选择:
U、C都是二值随机变量,当文档包括词项t时,U的取值为
个中
举例:路透社的语料库Retuters-RCV1的一个种别poultry及词项export。种别和词项的四种组合的文档数如下:
计较种别poultry和词export之间的类此外互信息为:
我们可以对每一个类计较各个词项与其的互信息,并选取值最大的k个词项,虽然有也许两个类会选取沟通的特性词,去重一下即可。 互信息怀抱的是词项是否被种别包括所带来的信息量,假如某个词项匀称的漫衍在各个种别,那么
在统计学中,
依然是前面的种别poultry及词项export的例子,我们有
其他的相同计较,获得:
查卡方的漫衍表,置信度为0.999的卡方临界值是10.83,也就是当卡方值
卡方是基于明显统计性来选择特性的,因此他会比MI选出更多的有数词项,而这些词项对分类并不靠谱。 固然卡方和互信息的起点差异,但它们的精确性却相差不多,由于大部门文天职类题目中,只有很少的强特性,大部门都是弱特性。只要全部的强特性和许多弱特性被选出,那么分类的精确率就不会低。 其它上面先容的两种特性选择首要用于文本的分类等用监视进修,而不相宜聚类等无监视进修,由于聚类我们不知道每篇文档属于的种别,也就无从计较互信息和卡方值,这时一样平常行使TF-IDF作为特性词的选取要领,关于TF-IDF可以参看阮一峰的日记,这里不做总结。 ? 本文内容首要来自:《Introduction to Information Retrieval》 ? ? ?转载请注明出处:http://www.cnblogs.com/fengfenggirl/ (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |