加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

非二元属性的关联法则发掘和关联法则的评价

发布时间:2021-03-14 08:50:05 所属栏目:大数据 来源:网络整理
导读:===================================================================== ? 《呆板进修拭魅战》系列博客是博主阅读《呆板进修拭魅战》这本书的条记也包括一些其他python实现的呆板进修算法 ? ? github 源码同步:https://github.com/Thinkgamer/Machine-Learnin

=====================================================================

? 《呆板进修拭魅战》系列博客是博主阅读《呆板进修拭魅战》这本书的条记也包括一些其他python实现的呆板进修算法

? ? github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Python

? ? 算法实现均回收python ? ? ? ? ? ? ?如需转载请注明出处,感谢

=====================================================================

在上一篇博客中《行使Apriori算法和FP-growth算法举办关联说明(Python版)》具体先容声名白关联法则中的Apriori算法和FP-growth算法的道理和代码实现,这一篇博客中我们来说一下非二元属性的关联法则发掘和关联法则的评价

一:非二元属性的关联法则发掘

在上一篇博客中接头的关联法则算法是针对购物篮数据,其特点是数据的属性都是二元属性,实际数据齐集每每有些属性值是标称可能持续的,无法直接操作上述算法发掘相干法则, 譬喻: 条记本贩卖数据集 对付数据齐集年数和文化水平的非二元属性可以操作数据预处理赏罚的要领,将他们转化成二元属性,再应用针对购物篮数据的相干法则发掘算法 有n个离散取值的标称属性可以转化为n个二元属性,譬喻针对上图,标称属性文化水平有高中,大学,研究生三个取值,可以转换为文化水平=高中,文化水平=大学,文化水平=研究生三个二元属性,持续属性先举办离散化处理赏罚,譬喻将年数端分为0-20,20-40,40以上,转换后数据如下图示:
假如设定支持度阀值为70%,置信度阀值为80%,操作之前关联法则发掘算法,可以获得的关联法则{年数在21-40}——>{购置条记本},{文化水平为研究生}——>{购置条记本} 留意事项: (1):标称属性值过多。好比文化水平细化分为,小学,初中,高中,大学,研究生,博士,这样计较下理因为没有满意支持度阀值的频仍项集,因此无法发明任何干联法则,以是对付有较多也许取值的标称属性,最好操作观念分层将多个标称值聚合为一个二元属性 (2):持续属性离散区间分别太窄可能太宽。区间分别太窄会不满意支持度,而无法发明关联法则。

二:关联法则的评价

在海量数据的贸易数据齐集举办关联法则的发掘,每每会发天生百上千的关联法则,而个中大部门的关联法则是没有效的。怎样筛选这些模式,以辨认最风趣的模式是较量伟大的使命,由于一小我私人的垃圾也许是另一小我私人的财产,因此成立一套普及接管的评价关联法则的尺度长短常重要的。 第一组理论可以通过统计论据成立,即客观乐趣度怀抱:涉及彼此独立的项或包围少量事宜的模式被以为是不令人感乐趣的,由于他们也许回响数据中的伪相关。这些模式可以行使客观乐趣度怀抱来解除,客观乐趣度怀抱行使从数据推导出的统计量来确定模式是否是风趣的。客观乐趣度怀抱包罗支持度,置信度,和相干性 第二组尺度是可以通过主观论据成立,即主观乐趣度怀抱:一个模式被主观的以为是无趣的,除非他能表明猜想不到的信息可能提供导致故意动作的信息。譬喻:法则{黄油}——>{面包}也许不是风趣的,尽量有很高的支持度和置信度,可是他外貌的相关显而易见。另一方面,法则{Diaper}——>{Beer}是风趣的,由于这种接洽异常出乎料想,而且也许为零售商提供新的交错贩卖的机遇。将主观常识插手到模式评价中是一项坚苦的使命,由于需求来自规模专家的大量先验信息
下面我们来看乐趣度的客观怀抱,包罗支持度,置信度,相干性的意义和范围性

支持度和置信度?

项集支持度:一个项集呈现的次数与数据集全部事物数的百分比称为项集的支持度

eg:support(A->B)=support_count(A并B) / N

项集置信度(confidence):数据齐集同时包括A,B的百分比

eg:confidence(A->B) = support_count(A并B) / support_count(A)


例1:早餐麦片的贩卖商观测在校的5000名门生清晨举办的勾当,观测数据以相依表的情势实现如下表,设定支持度为40%,置信度60%,针对表中的数据举办关联说明
关联法则{打篮球}——>{吃麦片}的支持度为 2000/5000 = 040%,,置信度为2000/3000=67%,这条法则是强关联法则,表白凡是打篮球的同窗凡是也吃麦片,可是全部门生中吃麦片比例为75%,要大于67%,这声名一个门生假如打篮球,那么他吃麦片的也许性就从75%降到了67&。并且{不打篮球}——>{吃麦片}的也许性为1750/2000=87.5%。因此,尽量法则{打篮球}——>{吃麦片}有着较高的置信度,缺是一个误导,由于打篮球反而会克制早餐吃麦片,麦片贩卖商按照关联法则{打篮球}——>{吃麦片}去赞助篮球角逐也许是一个错误的贸易举动

相干性说明?


从上面可以看出支持度和置信度有必然的范围性,无法过滤掉一些无用的关联法则,因此可以在支持度和置信度的基本上增进相干性的怀抱,相干性怀抱可以回收晋升度、相相关数、余弦怀抱等要领
晋升度(lift)是一种简朴的相干怀抱。对付项集A,B,若P(A?并?B) = P(A)*P(B),则A,B是彼此独立的,不然存在某种依靠相关,关联法则的前件项集A和后件项集B之间的依靠相关可以通过晋升度计较:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? lift(A,B) =?P(A?并?B)/?P(A)*P(B)=confidence(A—>B)/support(B) 晋升度可以评估项集A的呈现是否可以或许促进项集B的呈现。值大于1,表白二者存在正相干,小于1,暗示负相干,便是1,暗示无关 对付二元变量,晋升度等价于乐趣因子(interest factor)的客观怀抱,界说如下,个中N为记录总数: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???lift(A,B) = I(A,B)=support( A?并?B )/support(A)support(B)=Nf11/f1_f_1
例:以上表的数据为例计较关联法则{打篮球}—>{吃麦片}的晋升度
P({打篮球} 并{吃麦片})= 2000/5000 = 0.4 P({打篮球})=3000/5000 = 0.6 P({吃麦片})=3700/5000 = 0.75 lift({打篮球}—>{吃麦片}) =?P({打篮球} 并{吃麦片})/(?P({打篮球})*P({吃麦片}) )= 0.4 / ( 0.6 * 0.75) = 0.89 因为{打篮球}—>{吃麦片}的晋升度小于1,以是前后存在负相干相关,即推广打篮球不单不会晋升吃麦片的人数,反而会更小
项集间的相关也可以用相相关数怀抱?,对付二元变量,相相关数 f界说为: ? ? ? ? ? ? ? f = f11f00 - f01f10 ?/ ?sqrt(f1_ * f_1 * f0_ * f_0) 相相关数为0暗示不相干,大于0暗示正相干,小于0暗示负相干 例:计较打篮球和吃麦片的相相关数
f = (2000* 250 - 1000*1750)/ (sqrt(3750*3000*1250*2000)) =- 0.23
相相关数小于0,声名打篮球和吃麦片负相干
相干性的怀抱还可以用余弦怀抱?即:
? ? ? ? ? cosine(A,B) =?P(A?并?B)/?sqrt(P(A)*P(B))=support( A?并?B )/sqrt(support(A)support(B)) ? 注:sqrt暗示开根号
余弦怀抱可以看作调合的晋升度怀抱,余弦值仅受A,B和A并B的支持的影响,而不受事宜总个数的影响

辛普森悖论?

在对数据集凭证某个变量举办分组后,之前对整个数据集说明获得的关联法则说明也许并不合用于分组,这种征象就是所谓的辛普森悖论 下面我们拿一组数据来详细声名 例:P大和T大的物理学院和外语学院的人数和学校总人数的数据如下(这里假设P大和T大只有物理和外语两个学院)
物理学院的数据:
外院的数据:

学校整体数据(上述两个专业之和): 数据可不会是哄人的,不信可以本身下手验算一下,真的呈现了这种违反常理的环境!这种征象被称为“辛普森悖论”。固然这么叫,但其拭魅这不是个真正的悖论,它内部没有包括逻辑上的抵牾,只是有些违反人们的常理而已

也许有些人照旧一头雾水,固然数据是云云没错,可照旧不能领略到底产生了什么使得结论云云离奇。让你结构一个相同的数据,生怕你也很难直接想得出来吧!人们对几许图形的想象手段老是高于对数字和字母的想象,因此为了更直观地示意出辛普森悖论,我们看下面一幅向量图: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

非二元属性的关联法则发掘和关联法则的评价


http://guokr.com/gkimage/1x/r0/gm/1xr0gm.png

图中,玄色的线代表 P 大数据,赤色的线代表 T 大的数据。A?p?点的横坐标为 P 大外院女生人数,纵坐标为 P 大外院男生人数;B?p?点的横纵坐标则别离为 P 大总女生人数和总男生人数。A?t?和 B?t?点的意义与之相对应。

设坐标原点为 O,则 OA?p?的斜率暗示的就是 P 大外院的男女比例,A?p?B?p?暗示的是 P 大物院的男女比例,OB?p?暗示的则是 P 大总男女比例;T 大的各线段斜率意义与之对应。

云云一来,统统都变得清楚起来了。辛普森悖论反应在这张图上,就成了一个显然的究竟:在 P 大的外院、物院两个向量的斜率别离大于 T 大的两个向量的斜率的前提下,总人数向量的斜率虽然不必然哪个大呀!按照这个直观的领略,你也可以随意编造能发生辛普森悖论的数据了吧!

知道了辛普森悖论这一究竟之后,我们往后看待统计数据就要越发警惕了。在数学中,常常会呈现这种出乎人们料想的惊人究竟,以是照旧必然要学好数学啊!

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读