数据量太大？用Python处理数据密度过大障碍

发布时间：2021-05-28 02:15:53 所属栏目：大数据来源：互联网

导读：当我们必要调查较量2个变量间的相关时，散点图是我们首选图表。可当数据量很是大，数据点又较量齐集在某个区间中，图表没法看，密密麻麻的怎么看? 怎么办?这时

gridsize=num_bins, # 配置六边形的巨细

cmap="Blues" # 配置颜色组合

)

fig.colorbar(axes_1,ax=axes[0][1]) # 配置颜色表现条

# 第三个子图，我们画出2D直方图。

# 我们您必要说明两个数据量较量大的数值变量相关时，2D直方图很是有效，它可以停止在散点图中呈现的的数据密渡过大题目

num_bins = 50

axes[1][0].set_title('2D 直方图')

axes_2 = axes[1][0].hist2d(Financial_data['原料'], Financial_data['打点'],

bins=(num_bins,num_bins),

cmap="Blues")

# fig.colorbar(axes_2,ax=axes[1][0])

# 第四个子图，我们画出高斯核密度图

# 思量到想研究具有许多点的两个数值变量之间的相关。可以思量画图地区每个部门上的点数，来计较2D内核密度预计值。

# 就像滑腻的直方图，这个要领不会使某个点掉入特定的容器中，而是会增进周围容器的权重，好比颜色会加深。

k = kde.gaussian_kde(Financial_data.loc[:,['原料','打点']].values.T) # 举办核密度计较

xi, yi = np.mgrid[Financial_data['原料'].min():Financial_data['原料'].max():num_bins*1j, Financial_data['打点'].min():Financial_data['打点'].max():num_bins*1j]

zi = k(np.vstack([xi.flatten(), yi.flatten()]))

axes[1][1].set_title('高斯核密度图')

axes_3 = axes[1][1].pcolormesh(xi,

yi,

zi.reshape(xi.shape),

cmap="Blues")

fig.colorbar(axes_3,ax=axes[1][1]) # 配置颜色表现条

# 第五个子图，我们画出带阴影结果的2D密度图

axes[2][0].set_title('带阴影结果的2D密度图')

axes[2][0].pcolormesh(xi,

yi,

zi.reshape(xi.shape),

shading='gouraud',

cmap="Blues")

# 第六个子图，我们画出带外观线的密度图

axes[2][1].set_title('带阴影+外观线的2D密度图')

axes_5 = axes[2][1].pcolormesh(xi,

yi,

zi.reshape(xi.shape),

shading='gouraud',

cmap="Blues")

fig.colorbar(axes_5,ax=axes[2][1]) # 配置颜色表现条

# 画出外观线

axes[2][1].contour(xi,

yi,

zi.reshape(xi.shape))

plt.show()

出格提一下：2D核密度预计图

sns.kdeplot(Financial_data['原料'],Financial_data['打点'])

sns.despine() # 默认无参数状态，就是删除上方和右方的边框，matplotlib貌似做不到

sns.kdeplot(Financial_data['原料'],Financial_data['打点'],

cmap="Reds",

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/6

首页

尾页

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智