最近课题必要,清算一下文档相似性的一些研究,首要是参考知乎上面的答复和52nlp的相干文章。以备后期综述行使。详细还必要好好细读链接。
首要思绪
- 01/one hot representation,BOW+tf-idf+LSI/LDA系统.
- docsim要领:gensim包,行使corpora.Dictionary(text),把全部单词取一个set(),并对set中每一个单词分派一个id号的map,dictionary.doc2bow(doc),把文档doc酿成一个稀少向量,[(0,1),(2,3)]表白id为0,2的词别离呈现了1次和2次,其他未呈现。Similarity相似度查询。功效较量不变。
- word-embedding,行使NN头脑,word2vec只能获得词向量,较量词之间的相似度,通过简朴的加权、tag加权、tf-idf加权等方法获得文档向量。
- doc2vec,在word2vec模子中插手了段落向量,两者比拟,word2vec加权方法丢失了最重要的句子布局信息,doc2vec保存了这种信息。
- 句法树加权,行使LSH,sciket-learn提供了lsh的实现,较量得当随笔本。lshf = LSHForest(random_state=42),lshf.fit(x_train.toarray())
首要参考用docsim/doc2vec/LSH较量两个文档之间的相似度和知乎Batman答复
一些知乎上的概念
- 行使word2vec做,对付短句子有用。对付词之间的相干信息,无法表达。
- 用LSI/LSA做,基于SVD解析方法,句子中词的次序不会影响相似度功效。句子布局信息不敏感。
- 今朝的模子对长句子绝大部门不能work,短句子中文语境下,通过恰当的调参(对功效影响较量明显的,我认为有window size和min count),word2vec的功效还较量能看,doc2vec的功效一向都较量差,尤其是较量长一点儿的句子/文章。
- 在文档级别上,我认为doc2vec的robust水平还不敷以支撑一个产物,妥当性水平不如LSI,可能简朴的tf-idf。
一些较量好的网站
- [gensim官方教程翻译](http://www.voidcn.com/article/p-slipxhca-bcs.html
- word2vec行使教程
- 52nlp系列
- 中英文维基百科语料上的Word2Vec尝试
-
怎样计较两个文档的相似度:gensim lda 课程图谱例子
- 语义说明的一些要领](http://dataunion.org/10760.html),分为上中下三篇,先容文本根基处理赏罚:分词、说话模子;文本语义说明:topic model,词向量、句向量、卷积神经收集、文天职类;图片语义说明:图片分类、实习深度神经收集的tricks,很是棒的资料!
-
sentence2vec
一些可参考论文
- 《Destributed Representation of sentences and documents》讲doc2vec
- 《Parsing Natural scenes and natural recursive neural networks》句法树
- ICML2015的论文《From word embeddings to document distances》提出一种计较doc相似度的方法,大抵思绪是将词之间的余弦间隔作为ground distance,词频作为权重,在权重的束缚前提下,求WMD的线性筹划最优解。
- 《Convolutional Neural Netowrk for Modelling Sentence》简朴的word2vec 相加除以词个数,叫做mean-pooling,是不能反应词序信息的,可以预实习向量,然后再上一个CNN卷积神经收集。
- 《From Word Embeddings To Document Distances》:首要是将计较机影像规模的EMD(earth mover’s distance)算法的头脑,团结word2vec模子,移植到NLP规模,提出了一个文本间隔的权衡观念:WMD(word mover’s distance),通过word2vec模子,可以计较出全部词语的n维词向量(用于评价词与词之间的相似度),再用词袋模子(Bag Of Words)获得词语在文章中的词频(看作一个词语在文章中的权重),那么题目就转化成为了如安在最小价钱的环境下,将文章A的全部词单位“搬运”到文章B对应词单位中,因此酿成了一个transportation optimization的题目。在随笔本的处理赏罚上会较量好。-知乎 陈昊
- 《Distributed Representations of Sentences and Documents》Mikolov 14年颁发的。适用性一样平常。 参考意义不大,只要还逗留在word2vec的框架内,就无法model到语法布局对句子相似度的影响。
- 《How to generate a good word embedding》:语料大行使CBOW,语料小用skip-gram,影响相似度的身分:模子、语料、参数。评价指标:语义特性、用作特性、用作初始值。导读
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|