加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

以FIFA球员数据集为例,详解3大酷炫可视化技巧

发布时间:2019-05-21 21:54:39 所属栏目:教程 来源:读芯术
导读:可视化令数据一览无余。然而,乐成的数据可视化每每很难实现。另外,向更多受众泛起这些可视化的数据,也必要淹灭更多时刻和精神。 各人都知道怎样建造条形图、散点图和直方图,但却不注重美化它们。这在无形中会侵害我们在偕行和上级心中的靠得住性。 另外

只保存最好的球队(保存波尔图足球俱乐部只是为了让样本越发多样化)和最常见的国籍。

以FIFA球员数据集为例,详解3大酷炫可视化能力

俱乐部偏亏得很洪流平上反应了“国籍”:相识前者有助于猜测后者。

由图可知,英国球员更也许效力于切尔西队或曼联队,而不是在巴塞罗那队、拜仁慕尼黑队或波尔图队。

同理,克莱姆V系数也也捕捉到了同样的信息。

假如全部俱乐部拥有的球员的国籍比例沟通,那么克莱姆V系数则为0。

假如每个俱乐部偏好单一国籍的球员,则克莱姆系数V==1,譬喻,全部的英国球员在曼联队效力,全部的德国球员在拜仁慕尼黑队效力等等。

在全部其他环境下,范畴则为[0,1]。

3. 数值变量和分类变量

对持续分类案例行使相干比率。

在不涉及太大都学的环境下,该变量用于离散水平的权衡。

假如给定一个数字,就能找出它的种别吗?

譬喻,假设数据齐集有“SprintSpeed”和“Position”两列分类,那么:

  • 守门员:58(De Gea)、52(T. Courtois)、58(M. Neuer)、 43(G. Buffon)
  • 中后卫:68(D. Godin)、59(V. Kompany)、73(S. Umtiti)、 75(M. Benatia)
  • 先锋:91(C.Ronaldo)、94(G. Bale)、80(S.Aguero)、 76(R. Lewandowski)

由上可知,这些数字很好地猜测了他们所处的位置,因此相干性很高。

假如某球员冲刺速率高出85,那么该球员必定是先锋。

这个比率也在[0,1]之间。

执行此操纵的代码取自dython包,代码不会许多,最终功效如下:

  1. player_dfplayer_df = player_df.fillna(0) 
  2. results = associations(player_df,nominal_columns=catcols,return_results=True) 

以FIFA球员数据集为例,详解3大酷炫可视化能力

分类vs.分类、分类vs.数值、数值vs.数值,这些使图表更为风趣。

很美,不是吗?

只要看看数据,就能对足球有云云多的相识,譬喻:

  • 球员的位置与运球手段高度相干。总不能让梅西踢后卫吧!
  • 值与传球和控球的相干性比运球更高。法则是永久传球,正如内马尔的传球。
  • “俱乐部”和“收入”有很高的相干性而且可猜测。
  • “体型”与“踢球偏好的脚”高度相干。这是否意味着假如某球员是瘦子,就很也许喜好用左脚踢球?这也许没啥现实意义,必要进一法式查。

另外,通过这个简朴的图表,就能找到上述这么多信息,这在没有分类变量的典范相干图中是见不到的。

各人可深入研究这张图表,获得更多故意义的功效,但要害是图表能让各人在实际糊口中更轻易找到某种纪律。

散点图矩阵

固然前文谈到了许多相干性,但它是一个幻化无常的指标,为了让各人领略,我们来看一个例子。

“Anscombe四重奏”由四个相干性险些近似于1的数据集构成,但具有很是差异的数据漫衍,而且在绘制时泛起出很是差异的结果。

以FIFA球员数据集为例,详解3大酷炫可视化能力

Anscombe四重奏:相干性变革无常

因此,偶然绘制相干数据变得至关重要,而且必要单独查察漫衍。

此刻数据齐集有许多列,把它们全都绘制成图形会很艰辛。

着实只需几行代码就可以办理。

  1. filtered_player_df = player_df[(player_df['Club'].isin(['FC Barcelona', 'Paris Saint-Germain', 
  2.        'Manchester United', 'Manchester City', 'Chelsea', 'Real Madrid','FC Porto','FC Bayern München'])) &  
  3.                       (player_df['Nationality'].isin(['England', 'Brazil', 'Argentina', 
  4.        'Brazil', 'Italy','Spain','Germany']))  
  5.                      ] 
  6. # Single line to create pairplot 
  7. g = sns.pairplot(filtered_player_df[['Value','SprintSpeed','Potential','Wage']]) 

以FIFA球员数据集为例,详解3大酷炫可视化能力

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读