加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

发掘DBLP作者相助相关,FP-Growth算法实践(6):简朴的总结陈诉

发布时间:2021-05-26 22:10:31 所属栏目:大数据 来源:网络整理
导读:基于 FP-Growth 的频仍项集发掘与基于交际图的关联法则发掘 一、使命简介 1 二、数据集 1 三、根基思绪 2 3.1 、掘客各个集会会议的“焦点”研究者 2 3.2 、发掘作者之间的相助相关 3 3.3 、发掘 导师 - 门生相关 5 四、正确性验证 5 五、总结 5 ? ? 一、使命简




基于FP-Growth的频仍项集发掘与基于交际图的关联法则发掘

一、使命简介 1

二、数据集 1

三、根基思绪 2

3.1、掘客各个集会会议的“焦点”研究者 2

3.2、发掘作者之间的相助相关 3

3.3、发掘导师-门生相关 5

四、正确性验证 5

五、总结 5

?

?

一、使命简介

本次发掘使命有三个:第一,掘客各个集会会议的“焦点”研究者,详细包罗在响应集会会议上的颁发文章数目、活泼时刻范畴等;第二,发掘作者之间的相助相关,并行使必然的权值暗示相助的细密水平;第三,发掘导师-门生相关。

二、数据集

数据来自DBLP的十二个集会会议从2000年至今的全部论文,十二个集会会议别离是:{"SDM":1,?"ICDM":1,?"ECML/PKDD":1,?"PAKDD":1,?"WSDM":1,?"DMKD":1,?"CVPR":1,?"ICML":1,?"NIPS":1,?"COLT":1,?"SIGIR":1,?"KDD":1}。对付每一篇论文,提取出来的信息包罗:颁发的集会会议名称、颁发的时刻、论文的标题、论文的作者。

之以是从十五个集会会议中选择十二个集会会议,是由于这十二个集会会议有些配合的特点:第一,<inproceedings>是父标签;第二,可以直接行使<booktitle>标签来判定是否为所体谅的集会会议,好比<booktitle>SDM</booktitle>。

最终提取出来的数据存储在“tranDB.txt”文件中,因为该文件较量大,所提交的文件仅是一个示例,可以通过运行“1xmlParser.py”获取完备数据。该文件中,提供了三种提取XML文件内容的代码,别离是DOMTree、SAX和基于字符串的方法;其它,每篇论文信息被暗示成一行,详细名目如下:“confName????t????year????t????title????t????author1|author2|..|authorn”

三、根基思绪

3.1、掘客各个集会会议的“焦点”研究者

因为只有四项数据(集会会议名称、颁发时刻、论文标题、论文作者),以是这里行使基于法则的要领来判定一个研究者是不是焦点研究者;详细的,这里回收某个研究者在某个集会会议上颁发的论文总数作为判定该研究者是否为该集会会议的焦点研究者的依据。虽然,还可以通度日跃时刻(第一篇论文颁发时刻到最后一篇论文的颁发时距离断)等指标,但本质是一样的,以是代码没有做这些事变。其它,我们可以行使作者的相助相关图来发掘焦点研究者,以一个作者所代表的极点的度(出度+入度)作为判定依据,但本质还是一种基于法则的发掘。最终功效生涯在文件“CoreResearcher.txt”中。

3.2、发掘作者之间的相助相关

相助关险??上是一种共现相关,发掘共现相关的典范要领是FP-Growth算法。FP-Growth算法的发掘进程并没有什么出格之处,首要有两个数据布局较量故意思。

FP-Growth算法最大的特点是回收了FP-Tree(本质是前缀树)来压缩暗示事宜数据算法,从而使大量的事宜数据可以或许通过较少的内存无损的暗示出来,假如做不到这一点,重复扫描磁盘也就在所不免(现实上,对付发掘的深入,每次只必要当前频仍项集的前提数据库,这每每长短常小的)。FP-Tree的要害是怎样计划Tree?Node,详细实现时,我们回收了五元组,看名字就知道什么意思,不多做表明:

其它,FP-Growth算法尚有一个重要的数据布局HeaderTable,其浸染是存储全局频仍项集(假如是condition?HeaderTable,则存储当前已经找到的频仍项集)信息,其它,因为要思量一些全局信息,以是我们详细实现的时辰回收了五元组:

对付当前频仍项集的前提数据库,condition?HeaderTable只必要存储如下二元组(由于HeaderTable已经存储了其余全局信息):

讲完了两个重要的数据布局,再简朴说下FP-Growth算法的大抵流程:第一,第一遍扫描事宜数据库获得HeaderTable;第二,第二遍扫描事宜数据库获得FP-Tree;第三,从HeaderTable中支持度最低的频仍项集开始发掘,每次找到当前频仍项集的前提数据库和condition?HeaderTable,然后在此基本上递归发掘更大的频仍项集。具体进程参考代码“3FP-Tree.py”。

最后,关于发掘出的频仍项集,本质上就是作者的相助相关荟萃,因为每个频仍项集都对应一个支持度,该支持度在必然水平上可以或许暗示相助的细密水平;其它,还可以通过发掘关联法则,进一步行使置信度和晋升度来暗示相助的细密水平,但代码中没有实现该成果。最终功效生涯在文件“finalFreqAuthorPattDict.txt”中。

3.3、发掘导师-门生相关

和焦点研究者相同,在只有四个信息的环境下,很难精确判定谁是导师谁是门生,只能通过一些工钱地法则来鉴定(由于没有ground?truth,以是也欠好去进修这些法则);详细的,我们回收了活泼范畴大于六年这个法则,同样,可以再增进颁发文章数等法则,但本质一样。具体进程参考代码“3FP-Tree.py”;最终功效生涯在文件“TeacherStudentRelationship.txt”中。

四、正确性验证

因为没有ground?truth,只强人工验证。发明无论焦点研究者、相助干厦魅照旧师生相关,“Philip?S.?Yu”、“Jiawei?Han”、“Christos?Faloutsos”等人都被发掘出来;其它,关于师生相关,以“Jiawei?Han”先生为例,参考http://dblp.uni-trier.de/pers/hc/h/Han:Jiawei.html发明发掘出来的人确实都是他的门生。

五、总结

本次功课完成了三个使命:第一,掘客各个集会会议的“焦点”研究者,首要通过基于法则的要领;第二,发掘作者之间的相助相关,行使了FP-Growth算法;第三,发掘导师-门生相关,也回收了基于法则的要领。

对付发掘出来的功效,举办了人工验证,在必然水平上声名功效较量可信。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读