加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python or Java?大数据解读学什么语言最赚钱

发布时间:2018-08-30 11:05:19 所属栏目:教程 来源:徐涛
导读:本文首要用Python爬取拉勾网差异编程说话地位信息,包罗:Python岗、Java岗、C++岗、PHP岗、C#岗亭(5岗);用R说话对影响薪资的身分举办说明。因为拉勾网的地位信息只表现30页,一页15个地位信息,假如单独爬取一个都市的岗亭信息,只有几页是匹配的信息,信

抓取功效如下:

Python or Java?大数据解读学什么说话最赚钱

将抓取功效轮回写入csv文件:

Python or Java?大数据解读学什么说话最赚钱

另外还抓取了Java岗、C++岗、PHP岗、C#岗亭4岗的信息,代码和抓取Python岗亭信息相同。

二、以Python岗亭信息为例,说明影响薪资的身分

这里包罗数据洗濯部门和数据说明部门两部门内容。

数据洗濯部门

  1. data<-read.csv("E://Data For R/RData/Py.csv") 
  2. data[sample(1:nrow(data),size=10),] 

Python or Java?大数据解读学什么说话最赚钱

在抓取进程中,因为将python字典轮回写入csv文件,因此列名也被轮回写在csv文件中。

Python or Java?大数据解读学什么说话最赚钱

思量本文首要说明影响薪资的身分,这里去除Name和Company两列。

  1. ##去除Name和Company两列 
  2. DATA<-data[,-c(1,2)] 
  3. ##将python字典轮回写入csv文件时,问题也会被写入,去除多余的问题 
  4. ##查找哪些行是问题一再的行 
  5. which(DATA$Salary %in% "Salary") 
  6.  [1]  16  32  48  64  80  96 102 118 134 150 166 182 198 214 230 246 262 278 294 310 326 342 358 374 390 406 422 438 454 470 486 502 518 
  7. [34] 534 550 566 
  8. ##去除多余的问题地址的行 
  9. DATA<-DATA[-(which(DATA$Salary %in% "Salary")),] 
  10. dim(DATA) 
  11. [1] 545   4 

1.变量Salary

变量Salary一样平常都是范畴值,用“-”毗连,可是不解除有XXK以上,譬喻10k以上这种暗示情势,可能其他情势,这里必要处理赏罚一下。

  1. ##假如薪资是一个范畴值,都是"-"毗连,留意,薪资是一个范畴值,匹配末端竣事k值必要留意,有大写K和小写k两种情势。 
  2. newdata<-DATA[grep('-',DATA$Salary),] 
  3. dim(newdata) 
  4. [1] 544   4 
  5. ##比拟前面dim(DATA),声名薪水少了一行,Salary具有其他的暗示情势。 
  6. ##这里将范畴薪水的值分成底薪和高薪两部门,后头取均匀值来暗示薪水 
  7. library(tidyr) 
  8. library(stringr) 
  9. newdata<-separate(data=newdata,col=Salary,into=c("lowsalary","highsalary"),sep="-") 
  10. ##别拜别除后头的k值,留意k有大写和小写两种情势 
  11. newdata$lowsalary<-str_replace(newdata$lowsalary,'k|K',"")##  |暗示或的相关 
  12. newdata$highsalary<-str_replace(newdata$highsalary,'k|K',"") 
  13. newdata$lowsalary<-as.numeric(newdata$lowsalary)##转换数据范例 
  14. newdata$highsalary<-as.numeric(newdata$highsalary) 
  15. newdata$salary<-(newdata$lowsalary+newdata$highsalary)/2 
  16. newdadat<-newdata[,-c(1,2)]##去除原有的lowsalary和highsalary 

2.变量Education

  1. ###Education部门 
  2. ##起首将Education中事变履历和学历分隔 
  3. newdata<-separate(data = newdata,col=Education,into=c("Experience","Graduate"),sep = '/') 
  4. table(newdata$Experience) 
  5. 履历1-3年     履历1年以下       履历3-5年      履历5-10年        履历不限  履历应届结业生   
  6.  187               6             261              46              37               7  
  7. table(newdata$Graduate) 
  8.  本科  不限  大专  硕士  
  9.   447    27    63     7  

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读