加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Kaggle放大招:简朴几步实现海量数据说明及可视化

发布时间:2018-08-17 00:38:01 所属栏目:教程 来源:三石编译
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 近期,Kaggle宣布了新的数据说明及可视化器材Kaggle Kerneler bot,用户只需上传数据集,便可用Python为用户自动获取相干的深度数据说明功效。本文将教育读者体验一下这款便捷而又
副问题[/!--empirenews.page--] 技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战

近期,Kaggle宣布了新的数据说明及可视化器材——Kaggle Kerneler bot,用户只需上传数据集,便可用Python为用户自动获取相干的深度数据说明功效。本文将教育读者体验一下这款便捷而又高效的器材。

Kaggle放大招:简朴几步实现海量数据说明及可视化

Kaggle Kerneler bot是一个自动天生的kernel,个中包括了演示怎样读取数据以及说明事变的starter代码。用户可以进入恣意一个已经宣布的项目,点击顶部的“Fork Notebook”来编辑本身的副本。接下来,小编将以最热点的两个项目作为例子,教育读者相识该怎样行使这款便捷的器材。

好的开始是乐成的一半!

要开始这个试探性说明(exploratory analysis),起首必要导入一些库并界说行使matplotlib绘制数据的函数。但要留意的是,并不是全部的数据说明功效图像都可以或许泛起出来,这很洪流平上取决于数据自己(Kaggle Kerneler bot只是一个器材,不行能做到Jeff Dean可能Kaggle角逐选手们那么美满的功效)。

In [1]:

  1. from mpl_toolkits.mplot3d import Axes3D 
  2. from sklearn.decomposition import PCA 
  3. from sklearn.preprocessing import StandardScaler 
  4. import matplotlib.pyplot as plt  plotting 
  5. import numpy as np  linear algebra 
  6. import os  accessing directory structure 
  7. import pandas as pd  data processing, CSV file I/O (e.g. pd.read_csv) 

在本例中,一共输入了12个数据集。

In [2]:

  1. print(os.listdir(&39;../input&39;)) 
  2. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/007_nagato_yuki&39;)) 
  3. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/046_alice_margatroid&39;)) 
  4. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/065_sanzenin_nagi&39;)) 
  5. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki&39;)) 
  6. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/096_golden_darkness&39;)) 
  7. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/116_pastel_ink&39;)) 
  8. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/140_seto_san&39;)) 
  9. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/144_kotegawa_yui&39;)) 
  10. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/164_shindou_chihiro&39;)) 
  11. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/165_rollo_lamperouge&39;)) 
  12. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/199_kusugawa_sasara&39;)) 
  13. print(os.listdir(&39;../input/moeimouto-faces/moeimouto-faces/997_ana_coppola&39;)) 

接下里,用户在编辑界面中会看到四个已经编好的代码块,它们界说了绘制数据的函数。而在宣布后的页面,这些代码块会被潜匿,如下图所示,只需单击已宣布界面中的“code”按钮就可以表现潜匿的代码。

Kaggle放大招:简朴几步实现海量数据说明及可视化

筹备停当!读取数据!

起首,让我们先看一下输入中的第一个数据集:

In [7]:

  1. nRowsRead = 100  specify &39;None&39; if want to read whole file 
  2.  color.csv may have more rows in reality, but we are only loading/previewing the first 100 rows 
  3. df1 = pd.read_csv(&39;../input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki/color.csv&39;, delimiter=&39;,&39;, nrows = nRowsRead) 
  4. df1.dataframeName = &39;color.csv&39; 
  5. nRow, nCol = df1.shape 
  6. print(f&39;There are {nRow} rows and {nCol} columns&39;) 
Kaggle放大招:简朴几步实现海量数据说明及可视化

那么数据长什么样子呢?

In [8]:

  1. df1.head(5) 

Out [8]:

Kaggle放大招:简朴几步实现海量数据说明及可视化

数据可视化:仅需简朴几行!

样本的柱状图:

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读