加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python说明名誉卡反诓骗!骗我措施员,不存在的

发布时间:2019-10-13 08:02:53 所属栏目:教程 来源:一枚程序媛呀
导读:媒介: 本文研究的是大数据量(284807条数据)下模子选择的题目,也参考了一些文献,但大多不足清楚,因此吐血清算本文,但愿对各人有辅佐; 本文试着从数据说明师的角度,假想拿到数据该怎样探求纪律、选哪种模子来构建反诓骗模子?的角度来说明,以营业导向
副问题[/!--empirenews.page--]

媒介:

本文研究的是大数据量(284807条数据)下模子选择的题目,也参考了一些文献,但大多不足清楚,因此吐血清算本文,但愿对各人有辅佐;

本文试着从数据说明师的角度,假想“拿到数据该怎样探求纪律、选哪种模子来构建反诓骗模子?”的角度来说明,以营业导向为主,不穷究算法道理;

下一篇文章会声名数据布局十分不服衡的环境下,该怎样批改数据集、怎样调解参数。

数据来历及项目轮廓

数据是从kaggle上看到的项目,详细链接如下:

https://www.kaggle.com/mlg-ulb/creditcardfraud

获取本例数据的,可在上述项目详情链接中下载数据。

数据集包括欧洲持卡人于2013年9月通过名誉卡举办的买卖营业。该数据集提供两天内产生的买卖营业,个中在284,807笔买卖营业中有492起诓骗举动。

数据集很是不服衡,负面种别(诓骗)占全部买卖营业的0.172%。

它只包括数值输入变量,这是PCA调动的功效。不幸的是,因为保密题目,我们无法提供有关数据的原始特性和更多配景信息。特性V1,V2,... V28是用PCA得到的首要组件,独一没有效PCA转换的特性是'Time'和'Amount'。

  • “时刻”包括每个事宜与数据齐集第一个事宜之间颠末的秒数。
  • '金额'是买卖营业金额,该特性可以用于依靠于例子的本钱敏感性进修。
  • “Class”是相应变量,在诓骗的环境下其值为1,不然为0。

2、筹备并起源查察数据集

  1. # 导入包 
  2. import numpy as np 
  3. import pandas as pd 
  4. import matplotlib.pyplot as plt 
  5. import matplotlib.gridspec as gridspec 
  6. import seaborn as sns; plt.style.use('ggplot') 
  7. import sklearn 
  8. from sklearn.preprocessing import StandardScaler 
  9. from sklearn.model_selection import train_test_split 
  10. from sklearn.utils import shuffle 
  11. from sklearn.metrics import confusion_matrix 
  12. from sklearn.manifold import TSNE 
  13. pass 
  14. # 倒入并查察数据 
  15. crecreditcard_data=pd.read_csv('./creditcard.csv') 
  16. crecreditcard_data.shape,crecreditcard_data.info() 
  17. <class 'pandas.core.frame.DataFrame'> 
  18. RangeIndex: 284807 entries, 0 to 284806 
  19. Data columns (total 31 columns): 
  20. Time 284807 non-null float64 
  21. V1 284807 non-null float64 
  22. V2 284807 non-null float64 
  23. V3 284807 non-null float64 
  24. V4 284807 non-null float64 
  25. V5 284807 non-null float64 
  26. V6 284807 non-null float64 
  27. V7 284807 non-null float64 
  28. V8 284807 non-null float64 
  29. V9 284807 non-null float64 
  30. V10 284807 non-null float64 
  31. V11 284807 non-null float64 
  32. V12 284807 non-null float64 
  33. V13 284807 non-null float64 
  34. V14 284807 non-null float64 
  35. V15 284807 non-null float64 
  36. V16 284807 non-null float64 
  37. V17 284807 non-null float64 
  38. V18 284807 non-null float64 
  39. V19 284807 non-null float64 
  40. V20 284807 non-null float64 
  41. V21 284807 non-null float64 
  42. V22 284807 non-null float64 
  43. V23 284807 non-null float64 
  44. V24 284807 non-null float64 
  45. V25 284807 non-null float64 
  46. V26 284807 non-null float64 
  47. V27 284807 non-null float64 
  48. V28 284807 non-null float64 
  49. Amount 284807 non-null float64 
  50. Class 284807 non-null int64 
  51. dtypes: float64(30), int64(1) 
  52. memory usage: 67.4 MB 
  53. ((284807, 31), None) 
  54. crecreditcard_data.describe() 
  55. pass 
  56. crecreditcard_data.head() 
  57. pass 
  58. # 看看诓骗与非诓骗的比譬喻何 
  59. count_classes=pd.value_counts(crecreditcard_data['Class'],sort=True).sort_index() 
  60. # 统计下详细数据 
  61. count_classes.value_counts() 
  62. # 也可以用count_classes[0],count_classes[1]看别离数据 
  63. 284315 1 
  64. 492 1 
  65. Name: Class, dtype: int64 
  66. count_classes.plot(kind='bar') 
  67. plt.show() 
Python说明名誉卡反诓骗!骗我措施员,不存在的

0代表正常,1代表诓骗,二者数目严峻失衡,十分不服衡,基础不在一个数目级上;

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读