抓取功效如下:

将抓取功效轮回写入csv文件:

另外还抓取了Java岗、C++岗、PHP岗、C#岗亭4岗的信息,代码和抓取Python岗亭信息相同。
二、以Python岗亭信息为例,说明影响薪资的身分
这里包罗数据洗濯部门和数据说明部门两部门内容。
数据洗濯部门
- data<-read.csv("E://Data For R/RData/Py.csv")
- data[sample(1:nrow(data),size=10),]

在抓取进程中,因为将python字典轮回写入csv文件,因此列名也被轮回写在csv文件中。

思量本文首要说明影响薪资的身分,这里去除Name和Company两列。
- ##去除Name和Company两列
- DATA<-data[,-c(1,2)]
- ##将python字典轮回写入csv文件时,问题也会被写入,去除多余的问题
- ##查找哪些行是问题一再的行
- which(DATA$Salary %in% "Salary")
- [1] 16 32 48 64 80 96 102 118 134 150 166 182 198 214 230 246 262 278 294 310 326 342 358 374 390 406 422 438 454 470 486 502 518
- [34] 534 550 566
- ##去除多余的问题地址的行
- DATA<-DATA[-(which(DATA$Salary %in% "Salary")),]
- dim(DATA)
- [1] 545 4
1.变量Salary
变量Salary一样平常都是范畴值,用“-”毗连,可是不解除有XXK以上,譬喻10k以上这种暗示情势,可能其他情势,这里必要处理赏罚一下。
- ##假如薪资是一个范畴值,都是"-"毗连,留意,薪资是一个范畴值,匹配末端竣事k值必要留意,有大写K和小写k两种情势。
- newdata<-DATA[grep('-',DATA$Salary),]
- dim(newdata)
- [1] 544 4
- ##比拟前面dim(DATA),声名薪水少了一行,Salary具有其他的暗示情势。
- ##这里将范畴薪水的值分成底薪和高薪两部门,后头取均匀值来暗示薪水
- library(tidyr)
- library(stringr)
- newdata<-separate(data=newdata,col=Salary,into=c("lowsalary","highsalary"),sep="-")
- ##别拜别除后头的k值,留意k有大写和小写两种情势
- newdata$lowsalary<-str_replace(newdata$lowsalary,'k|K',"")## |暗示或的相关
- newdata$highsalary<-str_replace(newdata$highsalary,'k|K',"")
- newdata$lowsalary<-as.numeric(newdata$lowsalary)##转换数据范例
- newdata$highsalary<-as.numeric(newdata$highsalary)
- newdata$salary<-(newdata$lowsalary+newdata$highsalary)/2
- newdadat<-newdata[,-c(1,2)]##去除原有的lowsalary和highsalary
2.变量Education
- ###Education部门
- ##起首将Education中事变履历和学历分隔
- newdata<-separate(data = newdata,col=Education,into=c("Experience","Graduate"),sep = '/')
- table(newdata$Experience)
- 履历1-3年 履历1年以下 履历3-5年 履历5-10年 履历不限 履历应届结业生
- 187 6 261 46 37 7
- table(newdata$Graduate)
- 本科 不限 大专 硕士
- 447 27 63 7
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|