以FIFA球员数据集为例,详解3大酷炫可视化技巧
只保存最好的球队(保存波尔图足球俱乐部只是为了让样本越发多样化)和最常见的国籍。 俱乐部偏亏得很洪流平上反应了“国籍”:相识前者有助于猜测后者。 由图可知,英国球员更也许效力于切尔西队或曼联队,而不是在巴塞罗那队、拜仁慕尼黑队或波尔图队。 同理,克莱姆V系数也也捕捉到了同样的信息。 假如全部俱乐部拥有的球员的国籍比例沟通,那么克莱姆V系数则为0。 假如每个俱乐部偏好单一国籍的球员,则克莱姆系数V==1,譬喻,全部的英国球员在曼联队效力,全部的德国球员在拜仁慕尼黑队效力等等。 在全部其他环境下,范畴则为[0,1]。 3. 数值变量和分类变量 对持续分类案例行使相干比率。 在不涉及太大都学的环境下,该变量用于离散水平的权衡。 假如给定一个数字,就能找出它的种别吗? 譬喻,假设数据齐集有“SprintSpeed”和“Position”两列分类,那么:
由上可知,这些数字很好地猜测了他们所处的位置,因此相干性很高。 假如某球员冲刺速率高出85,那么该球员必定是先锋。 这个比率也在[0,1]之间。 执行此操纵的代码取自dython包,代码不会许多,最终功效如下:
分类vs.分类、分类vs.数值、数值vs.数值,这些使图表更为风趣。 很美,不是吗? 只要看看数据,就能对足球有云云多的相识,譬喻:
另外,通过这个简朴的图表,就能找到上述这么多信息,这在没有分类变量的典范相干图中是见不到的。 各人可深入研究这张图表,获得更多故意义的功效,但要害是图表能让各人在实际糊口中更轻易找到某种纪律。 散点图矩阵 固然前文谈到了许多相干性,但它是一个幻化无常的指标,为了让各人领略,我们来看一个例子。 “Anscombe四重奏”由四个相干性险些近似于1的数据集构成,但具有很是差异的数据漫衍,而且在绘制时泛起出很是差异的结果。 Anscombe四重奏:相干性变革无常 因此,偶然绘制相干数据变得至关重要,而且必要单独查察漫衍。 此刻数据齐集有许多列,把它们全都绘制成图形会很艰辛。 着实只需几行代码就可以办理。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |