加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

怎样计较文档相似性

发布时间:2021-01-27 22:28:28 所属栏目:大数据 来源:网络整理
导读:最近课题必要,清算一下文档相似性的一些研究,首要是参考知乎上面的答复和52nlp的相干文章。以备后期综述行使。详细还必要好好细读链接。 首要思绪 01/one hot representation,BOW+tf-idf+LSI/LDA系统. docsim要领:gensim包,行使corpora.Dictionary(text

最近课题必要,清算一下文档相似性的一些研究,首要是参考知乎上面的答复和52nlp的相干文章。以备后期综述行使。详细还必要好好细读链接。

首要思绪

  1. 01/one hot representation,BOW+tf-idf+LSI/LDA系统.
  2. docsim要领:gensim包,行使corpora.Dictionary(text),把全部单词取一个set(),并对set中每一个单词分派一个id号的map,dictionary.doc2bow(doc),把文档doc酿成一个稀少向量,[(0,1),(2,3)]表白id为0,2的词别离呈现了1次和2次,其他未呈现。Similarity相似度查询。功效较量不变。
  3. word-embedding,行使NN头脑,word2vec只能获得词向量,较量词之间的相似度,通过简朴的加权、tag加权、tf-idf加权等方法获得文档向量。
  4. doc2vec,在word2vec模子中插手了段落向量,两者比拟,word2vec加权方法丢失了最重要的句子布局信息,doc2vec保存了这种信息。
  5. 句法树加权,行使LSH,sciket-learn提供了lsh的实现,较量得当随笔本。lshf = LSHForest(random_state=42),lshf.fit(x_train.toarray())
    首要参考用docsim/doc2vec/LSH较量两个文档之间的相似度和知乎Batman答复

一些知乎上的概念

  • 行使word2vec做,对付短句子有用。对付词之间的相干信息,无法表达。
  • 用LSI/LSA做,基于SVD解析方法,句子中词的次序不会影响相似度功效。句子布局信息不敏感。
  • 今朝的模子对长句子绝大部门不能work,短句子中文语境下,通过恰当的调参(对功效影响较量明显的,我认为有window size和min count),word2vec的功效还较量能看,doc2vec的功效一向都较量差,尤其是较量长一点儿的句子/文章。
  • 在文档级别上,我认为doc2vec的robust水平还不敷以支撑一个产物,妥当性水平不如LSI,可能简朴的tf-idf。

一些较量好的网站

  1. [gensim官方教程翻译](http://www.voidcn.com/article/p-slipxhca-bcs.html
  2. word2vec行使教程
  3. 52nlp系列
  4. 中英文维基百科语料上的Word2Vec尝试
  5. 怎样计较两个文档的相似度:gensim lda 课程图谱例子
  6. 语义说明的一些要领](http://dataunion.org/10760.html),分为上中下三篇,先容文本根基处理赏罚:分词、说话模子;文本语义说明:topic model,词向量、句向量、卷积神经收集、文天职类;图片语义说明:图片分类、实习深度神经收集的tricks,很是棒的资料!
  7. sentence2vec

一些可参考论文

  1. 《Destributed Representation of sentences and documents》讲doc2vec
  2. 《Parsing Natural scenes and natural recursive neural networks》句法树
  3. ICML2015的论文《From word embeddings to document distances》提出一种计较doc相似度的方法,大抵思绪是将词之间的余弦间隔作为ground distance,词频作为权重,在权重的束缚前提下,求WMD的线性筹划最优解。
  4. 《Convolutional Neural Netowrk for Modelling Sentence》简朴的word2vec 相加除以词个数,叫做mean-pooling,是不能反应词序信息的,可以预实习向量,然后再上一个CNN卷积神经收集。
  5. 《From Word Embeddings To Document Distances》:首要是将计较机影像规模的EMD(earth mover’s distance)算法的头脑,团结word2vec模子,移植到NLP规模,提出了一个文本间隔的权衡观念:WMD(word mover’s distance),通过word2vec模子,可以计较出全部词语的n维词向量(用于评价词与词之间的相似度),再用词袋模子(Bag Of Words)获得词语在文章中的词频(看作一个词语在文章中的权重),那么题目就转化成为了如安在最小价钱的环境下,将文章A的全部词单位“搬运”到文章B对应词单位中,因此酿成了一个transportation optimization的题目。在随笔本的处理赏罚上会较量好。-知乎 陈昊
  6. 《Distributed Representations of Sentences and Documents》Mikolov 14年颁发的。适用性一样平常。 参考意义不大,只要还逗留在word2vec的框架内,就无法model到语法布局对句子相似度的影响。
  7. 《How to generate a good word embedding》:语料大行使CBOW,语料小用skip-gram,影响相似度的身分:模子、语料、参数。评价指标:语义特性、用作特性、用作初始值。导读

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读