加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

《hadoop进阶》PeopleRank从交际相关中发掘代价用户

发布时间:2021-03-07 16:16:33 所属栏目:大数据 来源:网络整理
导读:转载请注明出处: 转载自? Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt 代码下载地点:点击查察 1:PageRank 与 PeopleRank 2:需求说明:发掘CSDN博客的代价用户 3:算法模子:PeopleRank算法 4:架构计划:从数据筹备到PR算法的MR化 5:措施开拓:had
副问题[/!--empirenews.page--]

转载请注明出处: 转载自? Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt

代码下载地点:点击查察


1:PageRank 与 PeopleRank

2:需求说明:发掘CSDN博客的代价用户

3:算法模子:PeopleRank算法

4:架构计划:从数据筹备到PR算法的MR化

5:措施开拓:hadoop实现PeopleRank算法


一:PageRank与PeopleRank

??????? PageRank算法是Google从垃圾堆里捡黄金的重量级算法,它让谷歌的搜刮引擎一度成为No.1,虽然谷歌所果真的PR算法事实是已往式了,既然它能果真,那么必定不是它最新的算法演化版本,可是不管奈何,我们仍旧从中进修到许多创新和奇异的头脑。

??????? PR算法首要用于网页评分计较,它操作互联网的网页之间的毗连相关,给网页举办打分,最终PR值越高的网页代价也就越高。

??????? 自2012以来,中国开始进入交际收集的期间,开心网,大家网,新浪微博,腾讯微博,微信等交际收集应用,开始进入各人的糊口。最早是由“抢车位”,“偷菜”等交际游戏发动的交际收集的鼓起,现在人们会更多的操作交际收集,获守信息和分享信息。我们的互联网,正在从以网页信息为焦点的收集,向着以工钱焦点的收集转变着。

??????? 于是有人就提出了,把PageRank模子应用于交际收集,界说以工钱焦点的个别代价。这样PageRank模子就有了新的应用规模,同时也有了一个新的名字PeopleRank。


二 . 需求说明:发掘CSDN博客的代价用户


??????

《hadoop进阶》PeopleRank从交际相关中发掘代价用户

??????? 如上图所示,CSDN博客的每个用户都有存眷人数和粉丝人数,这在必然水平上和网页之间的毗连相关黑白常相似的,我小我私人较量菜,粉丝数太少,虽然我但愿看过我博客的人,假如你感受不错的话是否可以存眷以下呢,闲话少说,这种彼此存眷的相关在必然水平上浮现了用户的代价,粉丝数量越多的人,在必然水平上,其自己所具有的重要性。

??????? 趁便给各人看一个CSDN排名47的牛人

???????

《hadoop进阶》PeopleRank从交际相关中发掘代价用户


??????? 这恰恰切合PR算法,我们是否可以思量行使PeopleRank算法,操浸染户之间的存眷相关,来计较差异用户的PR值,从而提取出“代价”更高的用户呢?谜底是必定的。


三 . 算法模子:PeopleRank算法


?????? 那么什么是PageRank算法?虽然本篇博客并不是来谈PR算法的,而是将怎样操作hadoop实现pr算法从而发掘有代价的用户,以是以下只是简朴的对pr算法的描写,更多还请本身搜刮查察(以下部门摘自:http://blog.jobbole.com/71431/)

?????? 互联网中的网页可以看出是一个有向图,个中网页是结点,假如网页A有链接到网页B,则存在一条有向边A->B,下面是一个简朴的示例:

??????

《hadoop进阶》PeopleRank从交际相关中发掘代价用户

???????? 这个例子中只有四个网页,假如当前在A网页,那么清闲的上网者将会各以1/3的概率跳转到B、C、D,这里的3暗示A有3条出链,假如一个网页有k条出链,那么跳转恣意一个出链上的概率是1/k,同理D到B、C的概率各为1/2,而B到C的概率为0。一样平常用转移矩阵暗示上网者的跳转概率,假如用n暗示网页的数量,则转移矩阵M是一个n*n的方阵;假如网页j有k个出链,那么对每一个出链指向的网页i,有M[i][j]=1/k,而其他网页的M[i][j]=0;上面示例图对应的转移矩阵如下:

???????????????????

《hadoop进阶》PeopleRank从交际相关中发掘代价用户


????????? 初试时,假设上网者在每一个网页的概率都是相称的,即1/n,于是初试的概率漫衍就是一个全部值都为1/n的n维列向量V0,用V0去右乘转移矩阵M,就获得了第一步之后上网者的概率漫衍向量MV0,(nXn)*(nX1)依然获得一个nX1的矩阵。下面是V1的计较进程:

??????????????????

《hadoop进阶》PeopleRank从交际相关中发掘代价用户

???????????? 留意矩阵M中M[i][j]不为0暗示用一个链接从j指向i,M的第一行乘以V0,暗示累加全部网页到网页A的概率即获得9/24。获得了V1后,再用V1去右乘M获得V2,一向下去,最终V会收敛,即Vn=MV(n-1),上面的图示例,不绝的迭代,最终V=[3/9,2/9,2/9]’:

????????????????

《hadoop进阶》PeopleRank从交际相关中发掘代价用户


四 .架构计划:从数据筹备到PR算法的MR化

这里我回收的是用户和用户之间的存眷相关,譬喻 用户A 存眷 用户B

1:数据收罗

行使Python爬虫收罗CSDN博客的用户和用户的存眷相关,这里我行使的收罗措施架构图如下:

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读